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内 容 提要 


人 工 智能 领域 正在 以 超 竹 人 们 想象 的 速度 发 展 ， 本 书 赶 在 人 工 智 
能 彻 抵 “占领 ”世界 之 前 完成 编写 ， 实 属 万 斑 。 


书 中 收录 了 超过 100 道 机 絮 学 习 算 法 工程 师 的 面试 题 日 和 解答 ， 其 
中 大 部 分 源 于 Hulu 算 法 研究 岗位 的 真实 场景 。 本 书 从 日 常 工 作 、 生 活 
中 各 种 有 趣 的 现象 出 发 ， 不 仅 宫 括 了 机 赂 学 习 的 基本 知识 ， 而 且 还 包 
舍 了 成 为 优秀 算法 工程 师 的 相关 技能 ， 更 重要 的 是 凝聚 了 笔者 对 人 工 
智能 领域 的 一 颗 热忱 之 心 ， 旨 在 塔 养 读者 发 现 问 题 、 解 决 问题 、 扩 展 
J 建立 对 机 器 学 习 的 热爱 ， 共 绘 人 工 智能 世界 的 宏伟 蓝 


“不 积 哇 步 ， 无 以 至 千里 *"， 本 书 将 从 特征 工程 、 模 型 评 佑 、 降 维 
等 经 典 机 器 学 习 领 域 出 发 ， 构 建 一 个 算法 工程 师 必 备 的 知识 体系 ， 见 
神经 网 络 、 强 化 学 习 、 生 成 对 抗 网 络 等 最 新 科研 进展 之 微 ， 知 机 器 学 
习 领 域 胜 败 兴 有 惨 之 著 ;“ 博 观 而 约 取 ， 厚 积 而 薄 发 "， 在 最 后 一 划 为 读 
者 展示 生活 中 各 种 引领 时 代 的 人 工 智能 应 用 。 


推荐 序 


很 采 幸 有 机 会 推荐 清华 大 学 计算 机 系 1991 级 校友 诸 融 越 和 她 的 团 
队 写 的 新 书 《 百 面 机 器 学 习 : 算法 工程 师 带 你 去 面试 》。 


HEAR, ALSAGER, PREMARIN, 
束 其 热度 而 言 ， 说 它 处 在 夏天 也 十 分 贴切 ， 但 我 更 愿意 把 它 比 作 收 获 
的 金秋 。 目 前 席卷 全 球 的 人 工 知 能 大 潮 ， 实 际 上 十 机 需 学 习 二 三 十 年 
来 理论 和 算法 研究 厚积薄发 的 结果 〈 当 然 ， 还 要 加 上 与 大 数据 和 强大 
计算 能 力 的 风云 际会 ) ， 其 本 质 属于 * 弱 人 工 智能 范畴。 这 一 波 大 漳 
洛 肆 到 极致 后 一 旦 消退 ， 我 们 期 望 的 下 一 波 大 潮 必 然 将 是 “强人 工 智 
能 ”所 催 发 的 ， 但 由 于 其 理论 探索 的 高 度 困难 性 ， 尚 难以 设想 下 一 波 大 
漠 什 么 时 候 才 会 再 次 奔涌 而 至 。 所 以 当下 的 我 们 ， 一定 要 把 握 住 这 难 
得 的 机 遇 ， 抓 紧 收 获 *“ 弱 人 工 知 能 ”慷慨 馈赠 的 足够 丰硕 的 “条 实 ”。 可 
以 想象 ， 形 形 色色 的 人 工 智 能 应 用 将 在 近 一 两 年 走 进 于 家 万 户 ， 会 像 
互联 网 一 样 ， 给 人 们 的 生活 ， 给 社会 和 经 济 带 来 深远 的 影响 。 


然而 ， 收 获 并 不 是 唾 手 可 得 的 ， 只 有 有 能 耐 摘 取 “果实 ”的 人 才能 
RESIS I Wie TE BS AL BE AO te >) CERAT] 
(通常 也 被 称 作 算法 工程 师 ) 。 正 是 这 些 人 ， 针 对 不 同 的 实际 应 用 ， 
在 不 断 地 党 试 新 的 方法 ， 不 断 地 实现 新 的 算法 。 他 们 了 解 需求 、 收 集 
数据 、 设 计算 法 、 反 复 实 验 并 持续 优化 。 他 们 是 人 工 状 能 新 一 代 技 术 
的 “ 弄 背 儿 ” 和 推动 者 。 


那么 ， 你 是否 想 成 为 他 们 中 的 一 员 呢 ? 你 又 如 何 能 快速 成 为 他 们 
中 的 一 员 呢 ? 


也 许 这 本 书 可 以 帮 你 前 进一步 。 在 人 工 状 能 技术 如 火 如 茶 的 时 
代 ， 大 批 优 秀 的 研究 员 和 程序 员 正 闻 勤 致力 于 解决 人 工 智能 和 机 融 学 
习 的 实际 应 用 问题 ， 市 场 上 急需 这 方面 的 技术 实 操 书 。 而 本 书 刚好 填 
守 了 这 方面 的 空 日 。 它 的 内 容 由 位 至 繁 依次 展开 ,涵盖 了 机 器 学 习 各 
个 实用 领域 ， 并 采取 了 举例 和 问答 的 形式 ， 生 动 活泼 ， 使 每 个 读者 既 
能 了 解 人 工 智 能 从 业者 所 需要 的 技能 ， 又 能 学 会 掌握 这 些 技能 。 


我 从 事 人 工 智 能 研究 已 有 三 十 余年 了 ， 研 究 兴 趣 比较 广泛 ， 涵 盖 
了 自然 语言 理解 、 机 器 学 习 、 社 会 人 文 计算 等 ， 与 这 个 领域 相知 相 
行 。 我 认识 诸葛 越 多 年 ， 她 是 我 们 系 有 名 的 “学 霸 ”， 曾 经 获得 美国 计 
算 机 学 会 数据 库 专 业 委员 会 十 年 最 佳 论 文 奖 (ACM SIGMOD Test of 
Time Award) 。 回 国 后 她 也 常常 来 系 里 参加 活动 。 我 了 解 到 她 的 团队 
中 的 每 一 位 成 员 都 有 非常 优秀 的 背景 。 本 书 是 工业 界 每 天 从 事 机 器 学 
习 工 作 的 数据 科学 家 一 起 撰写 的 著作 ， 它 一 定 不 会 让 你 失望 。 


希望 更 多 的 朋友 通过 读 这 本 书 ， 成 为 更 好 的 算法 工程 师 、 数 据 科 
学 家 和 人 工 闹 能 的 实践 者 。 我 带领 的 研究 小 组 最 近 人 研制 了 一 个 “ 九 
歌 ” 古 诗 目 动 写 作 系统 ，2017 年 登录 央视 大 型 科学 挑战 类 下 目 《机 智 过 
人 》， 它 在 节目 中 的 表现 初步 达到 了 与 人 类 诗人 难 分 伯仲 的 程度 ， 而 
其 基本 框架 正 是 得 益 于 本 书 讲述 了 的 长 短期 记忆 网 络 和 Seq2Seq 模 
型 。 这 里 我 姑且 借用 “ 九 歌 " 写 作 的 一 首 五 绝 集 句 证 ， 视 本 书 的 所 有 读 
者 都 能 在 这 个 激动 人 心 的 技术 新 时 代 更 上 一 层 楼 : 
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清华 大 学 计算 机 系 教授 ， 博 导 ， 前 系 主 任 ， 前 党 委 书记 
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人 工 智 能 的 三 次 浪潮 


2018 年 年 初 ， 招 聘 季 正如 火 如 茶 地 进行 ， 而 “数据 科学 家 ”和 “算法 
工程 师 ” 绝 对 算得 上 热门 职业 。 


“人 工 智 能 “机 器 学 习 ”“ 深 度 学 习 ”“ 建 模 “ 卷 积 神经 网 络 ” 等 天 键 
词 ， 不 仅仅 是 人 们 茶余饭后 的 谈资 ， 而 且 更 会 像 “ 数 据 结构 ”“ 排 
序 ” 和 “链表 ”一 样 ， 成 为 软件 工程 师 的 必 备 技能 。 


人 工 智 能 技术 正在 对 社会 结构 、 职 场 、 教 育 等 带 来 革命 性 的 变 
化 。 未 来 几 年 是 人 工 智能 技术 全 面 普及 化 的 时 期 ， 也 是 该 技术 的 相关 
人 才 最 为 稀缺 的 时 期 。 所 以 ， 我 们 希望 能 够 通过 这 本 书 ， 帮 助 对 人 工 
智能 和 机 器 学 习 感 兴趣 的 朋友 更 加 深入 地 了 解 这 个 领域 的 基本 技能 ， 
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写 在 书 的 前 面 ， 我 先 位 单 介 绍 一 下 我 了 解 的 人 工 智能 和 机 器 学 习 
的 背景 和 历史 ， 解 释 为 什么 现在 是 学 习 机 右 学 习 算 法 的 大 好 时 机 。 


@ 我 与 人 工 智能 


我 的 本 科 专 业 征 人 工 智能 。 当 年 我 上 大 学 时 ， 清 华 大 学 的 计算 机 
系 每 个 年 级 有 6 个 班 ， 入 学 的 时 候 殊 把 每 个 班 的 专业 分 好 。 我 们 三 班 的 
专业 是 人 工 智能 。 所 以 在 本 科 的 时 候 ， 我 就 接触 到 许多 当时 人 工 智能 
领域 的 前 治 技术 。 我 的 人 工 智能 入 门 课 的 导师 是 可 杀 可 租 的 林苑 瑞 教 
Z, He (AL MRSC) WES o TTR BRE ART ME 
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当时 清华 大 学 的 本 科 是 5 年 制 ， 正 要 开始 改革 ， 有 少 部 分 学 生 可 以 
在 四 年 级 的 时 候 开始 接触 研究 生 的 一 些 活动 ，6 年 可 以 拿 到 硕士 学 位 。 
我 有 幸 被 选 为 这 几 个 学 生 之 一 ， 在 本 科 四 年 级 的 时 候 ， 我 进入 了 清华 
RENAL SHER Zs, UMS REIT, HEAT © 从 张 老 
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刚刚 进入 斯 坦 福 的 上 时候， 去 昕 一 个 小 型 的 午餐 讲座 (Brown Bag), 
也 就 是 一 二 十 个 人 吧 。 那 位 同学 讲 到 一 半 ， 教 室 门 突然 被 打开 ， 大 胡 
了 于 的 约翰 :麦卡锡 (John McCarthy) 教 授 走 了 进来 ， 大 声 地 问 :“ 听 说 这 
里 有 不 要 钱 的 午饭 ?” 然 后 他 走 到 房间 的 前 面 ， 抓 了 两 个 三 明治 ， 大 揪 
ASHE ME So ERR BEIM ES PB, W: “欢迎 大 家 来 到 斯 坦 
ea 上 最 车 名 的 科学 家 会 走 进 你 们 的 教室 来 抢 你 们 食物 的 地 
|» 


或 许 你 不 知道 , “人 工 智能 (Artificial Intelligence) XN, HK A 
AE ALE ° 


HARR eA Tae Sb, MARIA LE E — H IRSE, 
在 斯 坦 福 又 去 学 了 一 次 人 工 智 能 课 CS140。 当 时 教 这 个 课 的 是 尼 尔 斯 ， 
尼尔森 (Nils Nilsson) 教授 。 他 是 另外 一 位 人 工 智 能 的 学 科 创 始 人 和 
世界 级 专家 ， 写 作 了 被 广泛 引用 的 经 典 之 作 《对 人 工 智能 的 探 
RY (The Quest for Artificial Intelligence) 。 尼 尔 森 教授 的 课 非 常 有 
趣 ， 我 还 跟 他 做 了 一 个 小 的 项 目 ， 规 划一 个 扫地 机 器 人 的 路 径 。 至 
今 ， 我 还 保留 了 这 门 课 的 笔记 。 


说 实话 ， 我 年 轻 的 时 候 每 天 做 作业 、 做 课题 ， 没 有 意识 到 ， 能 和 
这 些 顶级 科学 家 同 特定 多 么 幸运 的 事 ， 也 未 必 知 道 目 己 正在 见证 茶 个 
技术 流域 的 世界 前 治 。 最 顶尖 的 技术 ， 开 始 部 是 只 有 小 众 才 能 理解 和 
AK LAY ° 


然而 ， 我 的 博士 论文 并 没有 专攻 人 工 智能 ， 反 而 做 的 是 大 数据 方 
问 ， 做 了 最 早 的 数据 仓库 和 数据 控 握 工作 。 现 在 看 来 ， 我 这 几 次 和 人 
TAGE RATS REA UIA IS, MEMA A eH = REI © 
BURA CL ARE RS eZ 2B BIC e HET AL 20H 2050 2F 
代 开 始 ， 打 下 了 计算 机 学 科 和 人 工 智 能 的 理论 基础 。 第 二 次 是 我 在 清 


华 大 学 期 间 ， 研 究 者 们 看 到 了 一 些 人 工 智 能 应 用 的 可 能 性 ， 比 如 机 械 
Fla A> SRA o mt, AEP ARE > War A AL ae 
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人工 智能 的 三 次 浪潮 
我 来 测 单 定义 和 解释 一 下 本 书 用 到 的 概念 。 


人 工 智 能 泛 指 让 机 器 具有 人 的 智力 的 技术 。 这 项 技术 的 目的 是 使 
DLAs RAFAL > 思考、 做 事 、 解 决 问题 。 人 工 智能 是 一 个 宽泛 的 
SOAR Si, LTE BATE Se Be > LA > Las A + Ve BA 
等 ， 它 可 以 锌 看 作 计 算 机 专业 的 子 领域 ,除了 和 计算 机 相关 ， 它 还 和 
心理 学 、 认 知 科学 、 社 会 学 等 有 不 少 交 义 。 


机 器 学 习 指 计算 机 通过 观察 环境 ， 与 环境 交互 ， 在 吸取 信息 中 学 
习 、 自 我 更 新 和 进步 。 大 家 都 了 解 计算 机 程序 是 怎么 回 事 ， 一 个 程序 
征 计算 机 可 以 执行 的 一 系列 的 指令 ， 比 如 打印 一 张 图 。 那 么 机 天 学 习 
跟 我 们 熟知 的 程序 的 本 质 区 别 是 什么 呢 ? 你 可 以 想象 ， 某 个 程序 是 机 
妖 写 的 ， 而 不 古 一 个 程序 员 写 的 。 那 么 机 器 怎么 知道 如 何 写 这 个 程序 
呢 ? 这 个 机 器 整 是 从 大 量 的 数据 当中 学 到 的 。 


简单 地 说 ， 大 多 数 机 器 学 习 算法 可 以 分 成 训练 (training) 和 测试 
(testing) 两 个 步骤 ， 这 两 个 步骤 可 以 重 琶 进行 。 训 练 ， 一 般 需 要 训练 数 
据 ， 束 是 告诉 机 器 前 人 的 经 验 ， 比 如 什么 是 猫 、 什 么 是 狗 、 看 到 什么 
该 停车 。 训 练 学 习 的 结果 ， 可 以 认为 是 机 怖 写 的 程序 或 者 存储 的 数 
据 ， 叫 模型 (model)。 总 体 上 来 说 ， 训 练 包 括 有 监督 (supervised 
learning) 和 无 监督 (unsupervised learning) 丙 类。 有 监督 好 比 有 老师 告 
诉 你 正确 答案 ;无 监督 仅 靠 观察 自学 ， 机 器 上 自己 在 数据 里 找 模式 和 特 
征 。 深 度 学 习 (deep learning) 是 机 器 学 习 的 一 种 方法 ， 它 基于 神经 元 
网 络 ， 适 用 于 首 频 、 视 频 、 语 言 理 解 等 多 个 方面 。 

我 们 先 来 短暂 地 回顾 一 下 人 工 知 能 的 三 次 浪潮 。 它 们 有 什么 特 
点 ? 义 有 什么 不 同 ? 它们 又 是 怎样 互相 联系 ， 如 何在 前 一 次 的 基础 之 
上 建立 的 ? 


第 一 次 人 工 智能 浪潮 大 约 在 20 世 纪 50 年 代 。1956 年 ， 在 达 特 茅 斯 
的 人 工 知 能 研讨 会 上 上， 约翰 :麦卡锡 正式 提出 “人 工 智 能 ”这 个 概念 ， 被 


公认 是 现代 人 工 闹 能 学 科 的 起 始 。 麦 卡 锡 与 麻 省 理工 学 院 的 马 文 : 明 斯 
基 (Marvin Minsky) 被 誉 为 “< 人工 吞 能 之 父 ”。 


在 计算 机 被 发 明 的 早期 ， 许 多 计算 机 科学 家 们 就 认真 地 思考 和 讨 
论 这 个 人 类 发 明 出 来 的 机 器 ， 和 人 类 有 什么 根本 区 别 。 图 灵机 和 图 灵 
测试 ， 就 是 这 个 思考 的 一 个 最 典型 结果 。 最 初 的 那 批 思考 人 工 智能 的 
专家 ， 从 思想 和 理论 上 走 得 非常 前 沿 ， 内 行 的 专家 很 早 就 看 到 了 计算 
机 的 潜力 。 我 们 现在 所 问 的 这 些 问题 ， 他 们 其 实 都 问 过 了 。 比 如 ， 什 
么 叫 “ 推 理 *(reasoning), 机 器 如 何 推 理 ， 什 么 叫 “ 慌 得 ”(understanding)， 
机 器 如 何 懂得 ; 什么 叫 知识 (knowledge]， 机 器 如 何 获取 和 表达 知识 ; 
什么 时 候 ， 我 们 无 法 分 辨 出 机 器 和 人 “。 这 个 阶段 产生 了 许多 基础 理 
论 ， 不 仅 是 人 工 智能 的 基础 理论 ， 也 是 计算 机 专业 的 基石 。 


从 技术 上 来 说 ， 第 一 次 人 工 智 能 的 大 发 展 ， 主 要 是 基于 逻辑 的 。 
1958 年 麦卡锡 提出 了 逻辑 语言 LISP。 从 20 世 纪 50 年 代 到 20 世 纪 80 年 
代 ， 研 究 者 们 证 明了 计算 机 可 以 玩 游 戏 ， 可 以 进行 一 定 程度 上 的 目 然 
语言 理解 。 在 实验 室 里 ， 机 器 人 可 以 进行 逻辑 判断 、 拱 积木， 机 器 老 
鼠 可 以 针对 不 同 的 路 径 和 障碍 做 出 决定 ， 小 车 可 以 在 有 限 的 环境 下 自 
己 芍 驶 。 研 究 者 们 发 明了 神经 网 络 ， 可 以 做 简单 的 语言 理解 和 物体 识 
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研 领域 ， 人 们 实际 生活 中 的 用 处 却 几乎 没有 。20 世 纪 80 年 代 初 ， 人 工 
智能 因为 缺乏 应 用 而 进入 “冬季 ”。 到 80 年 代 末 和 90 年 代 初 ， 在 我 刚 入 
大 学 的 那 段 时 间 里 ， 人 工 智 能 科学 家 们 决定 另辟蹊径 ， 从 解决 大 的 普 
适 智能 问题 ， 转 向 解决 某 些 领域 的 单一 问题 。“ 专 家 系统 ”这 个 概念 被 
提 了 出 来 ， 它 让 这 些 研 究 成 末 找 到 了 第 一 个 可 能 的 商业 出 路 。 


计算 机 技术 经 过 了 30 年 左右 的 发 展 ， 数 据 存储 和 应 用 有 了 一 定 的 
基础 。 研 究 者 们 看 到 人 工 智能 和 数据 结合 的 可 能 性 ， 而 结合 得 最 好 的 
应 用 就 是 “专家 系统 ”。 如 果 我 们 能 把 某 一 个 行业 的 数据 ， 比 如 说 天 于 
心脏 病 的 所 有 数据 ， 痢 告诉 一 个 机 颖 ， 再 给 它 一 些 逻 辑 ， 那 这 个 机 器 
SN EMM T ERR”, WRN a, eG blind? 


看 病 、 预 报 天 气 等 各 行 各 业 的 专家 系统 ， 听 起 来 非常 有 希望 、 有 
意义 ， 也 确实 有 实际 的 应 用 场景 ， 所 以 当时 学 术 界 对 人 工 智能 又 掀起 


了 一 阵 热 湖 。 然 而 ， 比 较 有 意思 的 征 ， 当 我 们 想 要 用 这 些 专家 系统 
做 一 些 聪明 的 诊断 的 时 候 ， 我 们 发 现 遇 到 的 问题 并 不 是 如 何 诊断 ， 而 
征 大 部 分 的 数据 在 当时 还 不 是 数字 化 的 。 病 人 的 诊断 历史 还 停留 在 看 
不 懂 的 医生 手写 处 方 上 。 有 些 信息 整 算是 已 经 开始 数字 化 ， 也 都 古 在 
一 些 表格 里 面 ， 或 者 是 在 一 些 不 互相 连接 的 机 融 里 面 ， 拿 不 到 ， 用 不 
Te 


于 和 是， 我 们 这 一 批 想 去 做 目 动 诊断 的 人 ， 反 而 去 做 了 一 些 基础 的 
工作 。 这 个 基础 的 工作 用 一 名 话说 ， 吏 是 把 世界 上 所 有 的 信息 数字 
Aas 


在 一 批 人 致力 于 把 世界 上 每 一 本 书 、 每 一 张 图 、 每 一 个 处 方 都 变 
成 电子 版 的 时 候 ， 互 联网 的 广泛 应 用 ， 又 把 这 些 信息 相互 联接 了 起 
来 ， 成 了 真正 的 大 数据 。 同 时 ， 摩 尔 定律 (Moore’s law) 预测 的 计算 
性 能 增加 一 直 在 起 作用 。 随 着 计算 能 力 的 指数 增长 ， 那 些 只 能 在 实验 
室 里 或 有 限 场 景 下 实现 的 应 用 ， 离 现实 生活 越 来 越 近 了 。1997 年 ，“ 深 
蓝 ” 打 败 当 时 的 世界 象棋 冠军 Garry Kasparov， 和 2017 年 AlphaGo 围 棋 打 
败 李 世 石 一 样 ， 被 公认 是 一 个 里 程 碑 。 其 实 ， 随 着 计算 能 力 的 提高 ， 
在 这 些 单一 的 、 有 确定 目标 的 事情 上 机 器 打败 人 ， 都 只 是 个 时 间 问 


题 。 


第 三 次 的 人 工 知 能 浪潮 就 是 基于 另外 两 个 技术 领域 的 大 发 展 ， 一 
个 是 巨大 的 计算 能 力 ， 一 个 是 海量 的 数据 。 巨 大 的 计算 能 力 来 自 于 硬 
件 、 分 布 式 系统 、 云 计算 技术 的 发 展 。 最 近 ， 专 门 为 神经 网 络 制 作 的 
硬件 系统 (neural-network-based computing) 又 一 次 推动 了 人 工 智 能 软 
硬件 结合 的 大 进步 。 海 量 的 数据 来 源 于 前 几 十 年 的 数据 积累 和 互联 网 
技术 的 发 展 。 比 如 ，2001 年 上 市 的 GPS 系 统 ， 带 来 前 所 未 有 的 大 量 出 
行 数据 ， 知 能 手机 带 来 了 前 所 未 有 的 人 们 生活 习性 的 数据 ， 等 等 。 计 
算 能 力 和 数据 的 结合 ， 促 进 、 众 化 了 机 器 学 习 算法 的 飞 茎 成 长 。 

这 次 的 人 工 智 能 浪潮 起 始 于 近 10 年 。 技 术 的 飞跃 发 展 ， 融 来 了 应 
用 前 所 未 有 的 可 能 性 。 最 近 这 次 人 工 智 能 浪潮 和 前 两 次 最 基本 的 不 同 
是 它 的 普遍 应 用 和 对 普通 人 生活 的 影响 。 也 就 是 说 ， 人 工 智能 离开 了 
学 术 实 验 室 ， 真 正 走 进 大 众 的 视野 。 


a AL SHS Mie AREA? 


为 什么 这 次 人 工 智能 浪潮 如 此 凶猛 ? AT ALIENS ET A 
类 的 能 力 吗 ?人工 智能 技术 现在 发 展 到 什么 阶段 ? 我们 先 来 看 3 个 简单 
的 事实 。 


首先 ， 历 史上 第 一 次 ， 计 算 机 在 很 多 复杂 任务 的 执行 上 超过 人 类 
或 者 即将 超过 人 类 ， 比 如 图 像 识别 、 视 频 理 解 、 机 器 翻译 、 汽 车 轰 
驶 、 下 围棋 ， 等 等 。 这 些 都 是 人 们 容易 理解 的 ， 一 直 由 人 类 完成 的 任 
务 。 所 以 ， 人 工 智能 取代 人 类 的 话题 开始 出 现在 各 种 头条 。 


其 实 ， 在 单一 技术 方面 ， 许 多 计算 相关 的 技术 早已 超过 人 类 的 能 
力 ， 而 且 被 广泛 应 用 ， 比 如 导航 、 搜 索 、 搜 图 、 股 票 交 易 。 不 少 人 已 
经 习惯 于 用 语音 给 人 简单 指令 操作 。 但 是 ， 这 些 相 对 单纯 的 技术 主要 
征 “ 完 成 一 个 任务 ”， 计 算 机 没有 过 多 地 涉猎 人 的 感知 、 思 考 、 复 杂 判 
晰 ， 甚 至 于 情感 。 


然而 ， 近 几 年 来 机 亏 完 成 的 任务 ， 从 复杂 性 和 形式 越 来 越 逼 近 人 
类 。 比 如 ， 基 于 机 器 学 习 的 目 动 茹 驶 技术 已 经 趋 于 成 熟 ， 这 项 技术 不 
仅 会 对 人 们 的 出 行 方式 有 革命 性 的 影响 ， 而 且 会 影响 到 城市 建设 、 个 
人 人 消费、 生活 方 式 。 人 们 也 许 再 也 不 需要 拥有 汽车 ， 再 也 不 需要 会 开 
车 。 大 家 对 这 类 新 技术 的 快速 到 来 既 兴 盏 义 念 惧 ， 一 方面 译 受 技术 带 
来 的 便利 ， 另 一 方面 又 对 太 快 的 变化 有 些 手足 无 措 。 


另外 ， 计 算 机 的 目 学 习 能 力 不 断 增强 。 现 代 机 融 学 习 算 法 ， 尤 其 
深度 学 习 类 机 器 学 习 算 法 的 发 展 ， 使 机 器 的 行为 不 再 是 相对 可 预测 
的 “程序 ?或 者 “逻辑 ”， 而 更 像 * 黑 使 思考 "， 有 了 近乎 人 类 的 难以 解释 
的 思考 能 力 。 


然而 ， 仔 细 看 来 ， 虽 然 在 不 少 特殊 领域 中 ， 人 工 智能 有 了 罕 飞 狸 
进 的 发 展 ， 但 是 距离 人 工 智能 的 鼻祖 们 在 第 一 次 浪潮 时 研究 的 通用 智 
能 (general purpose intelligence) 其 实 还 相差 非常 远 。 这 是 第 二 个 事 
实 。 机 器 还 是 被 放 在 特定 情况 下 完成 特定 任务 ， 只 不 过 任务 更 复杂 
了 。 机 器 还 是 缺少 一 些 最 基本 的 人 的 智能 ， 比 如 和 常识。 人 工 智 能 仍然 
无 法 理解 哪怕 是 简单 的 情感 ， 比 如 害怕 。 对 两 三 罗 的 孩子 来 说 非常 简 
单 的 帮忙、 合作 ， 机 器 都 是 做 不 到 的 。 好 比 有 人 开玩笑 说 : “它们 还 是 


:会 炒 鸡蛋 。” 


第 三 个 事实 ， 是 这 次 人 工 智 能 和 机 器 学 习 的 应 用 场景 非常 宽广 。 
近 几 年 人 工 入 能 和 机 器 学 习 应 用 的 大 发 展 ， 这 个 曾经 是 学 术 人 研究 领域 
的 概念 一 时 间 进 入 大 众 视野 ， 成 为 和 未 来 相关 的 必 谈 话题 。 计 算 机 视 
觉 、 深 度 学 习 、 机 器 人 技术 、 上 自然 语言 理解 ， 都 被 提 到 应 用 层 。 算 法 
类 的 应 用 走出 学 术 界 ， 深 入 社会 的 各 个 角落 ， 渗 入 人 们 生活 的 方 方 面 
面 。 大 家 束 知 的 有 人 脸 识 别 、 目 动 要 驶 、 医 疗 诊断 、 机 融 助 手 、 智 熙 
城市 、 新 媒体 、 游 戏 、 教 育 等 ， 还 有 并 不 第 被 谈论 的 比如 农业 生产 的 
目 动 化 、 老 人 和 儿童 的 护理 、 危 险情 景 的 操作 、 交 通 调度 ， 等 等 。 我 
们 很 难 想 象 社会 的 哪 一 个 方面 ， 不 会 被 这 次 浪潮 所 波及 。 


回 前 看 十 年 ， 人 工 智能 和 机 硕 学 习 的 大 发 展 ， 在 于 这 些 技术 的 普 
及 和 应 用 。 大 批 的 新 应 用 将 会 被 开发 ， 人 工 智能 基础 设施 会 迅速 完 
善 ， 原 有 的 传统 软件 和 应 用 需要 被 迁移 使 用 新 的 算法 。 所 以 ， 现 在 是 
成 为 一 个 人 工 智能 和 机 器 学 习 专家 的 良机 。 


m 这 本 书 是 如 何 写成 的 


无 论 海内 海外 ， 媒 体 行业 一 直 都 走 在 人 工 智能 应 用 的 最 前 沿 ， 
为 媒体 往往 接触 上 千 万 甚至 上 亿 的 用 户 ; 有 千变万化 的 用 户 每 天 离 不 
开 的 内 容 ， 比 如 新 闻 、 体 育 、 电 影 ， 有 丰富 多 彩 的 内 容 与 用 户 的 结合 
场景 ， 还 有 让 厚 的 有 创意 的 商机 。 


Hulu 古 一 家 国际 领先 的 视频 媒体 公司 ， 提 供 优 质 电影 、 电 视 剧 点 
播 和 直播 广 目 。Hulu 技 术 染 构 最 为 先进 的 一 点 是 人 工 乔 能 和 机 器 学 习 
算法 的 广泛 应 用 ， 用 在 个 性 化 内 容 推 荐 、 搜 索 、 视 频 内 容 理解 、 视 频 
传输 和 播放 、 广 告 预 测 和 定向 、 安 全 检测 、 决 策 文 持 ， 甚 至 视频 编辑 
和 客服 系统 。 机 器 学 习 算 法 的 背后 有 古 专 门 打造 的 大 规模 数据 处 理 系 
统 。“ 算 法 无 处 不 在 ”是 Hulu 当 今 和 未 来 技术 架构 的 定位 。 可 以 说 ， 
Hulu 征 未 来 的 互联 网 技术 公司 ， 全 面 “ 算 法 化 ”的 一 家 市 头 公 司 。 


为 了 文 持 各 类 的 人 工 智能 算法 应 用 ，Hulu 在 北京 的 创新 实验 室 集 
合 了 大 批 人 工 关 能 和 机 器 学 习 的 顶尖 人 才 。Hulu 的 数据 科学 家 、 算 法 
工程 师 和 软件 工程 师 都 工作 在 同一 个 团队 ， 每 天 解决 用 户 的 实际 问 
题 ， 积 累 了 大 量 实用 的 经 验 。Hulu 北京 的 学 习气 氛 也 相当 浓厚 。 除 了 
定期 的 机 融 学 习 专 题 研 讨 和 大 数据 及 机 融 学 习 公 开 谍 ，Hulu 也 在 内 部 
开设 了 深度 学 习 谍 程 。 
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分 为 两 类 ， 一 类 是非 向 系 统 的 教科 书 ， 还 有 一 类 是 关于 人 工 智 能 和 人 
类 未 来 的 社 科 类 图 书 。 我 们 能 否 写 一 本 实 操 类 的 书 ， 介 绍 一 个 真正 的 
计算 机 从 业 人 员 需 要 掌握 的 技能 呢 ? 


抱 厦 试 一 试 的 心理 ， 我 让 公司 里 的 同事 目 愿 报名 参加 这 个 集体 项 
目 。 一 共有 15 位 资深 研究 员 和 算法 工程 师 参 与 了 这 本 书 的 内 容 创 作 ， 
这 是 个 成 功 的 合作 案例 。 我 们 先 学 习 了 一 下 现 有 的 相关 书籍 ， 然 后 头 
脑 风 暴 了 一 番 ， 觉 得 我 们 可 以 做 一 个 问答 集 ， 以 比较 有 趣 的 问答 形 
式 ， 集 中 当前 算法 工程 师 和 人 研究 员 感 兴趣 的 话题 ， 用 问答 引出 这 个 行 
业 的 基本 概念 。 


在 互联 网 行业 ， 敏 捷 开 发 都 是 以 最 快 的 速度 ， 做 一 个 “最 小 化 产 
品 ”， 让 用 户 的 反 引 来 囊 领 产品 的 方 同 。 我 们 写 这 本 书 也 是 如 此 。 为 了 
让 大 家 能 够 落笔 写 出 没有 错误 、 通 俗 易 惟 的 问答 ， 为 了 收集 读者 的 反 
局 ， 也 为 了 不 把 写 一 本 大 部 头 书 列 为 第 一 天 的 目标 ， 我 们 先 在 Hulu 的 
微 信 公 众 号 上 ， 以 每 周 发 两 个 问答 的 形式 ， 从 2017 年 11 月 到 2018 年 3 月 
期 间 ， 一 共 发 出 了 30 篇 “机 器 学 习 问 答 ” 系 列 文章 。 这 些 文章 受到 了 业 
界 好 评 ， 也 收 到 各 种 问题 和 反馈 ， 成 了 我 们 这 本 书 的 核心 内 容 。 


关于 书 的 章节 组 织 ， 我 们 也 进行 过 仔细 的 讨论 。 人 工 智 能 和 机 器 
学 习 算 法 范围 很 大 ， 我 们 的 理念 是 要 涵盖 该 领域 最 基本 的 内 容 ， 介 绍 
基本 概念 ， 同 时 ， 跟 上 算法 发 展 的 最 新 步伐 。 所 以 本 书 介 绍 了 传统 机 
妖 学 习 滤 法 ， 比 如 逻辑 回归 、 决 策 树 等 ， 同 时 花 了 比较 大 的 篇 幅 介 绍 
近 几 年 流行 的 最 新 算法 ， 包 括 各 种 神经 网 络 (深度 学 习 ) 、 强 化 学 
习 、 集 成 学 习 等 ， 还 会 涉猎 学 术 界 正 在 讨论 中 的 痢 领 域 和 痢 算 法 。 同 
时 ， 本 书 强调 了 实现 一 个 企业 里 真正 实用 的 算法 系统 所 需要 的 技能 ， 
比如 采样 、 特 征 工 程 、 模 型 评 佑 。 因 为 机 器 学 习 算法 往往 需要 比较 深 
的 背景 知识 ， 所 以 在 每 个 问题 和 解答 之 前 ， 会 对 该 领域 做 简单 的 背景 
介绍 。 每 个 问答 有 不 同 的 难度 ， 以 供 读者 目 我 衡量 。 


在 核心 的 机 需 学 习 算 法 问答 内 容 之 外 ， 我 们 增加 了 两 个 部 分 ， 一 
征 “ 机 天 学 习 算法 工程 师 的 目 我 修养 ”， 介 绍 业 界 典型 的 算法 工程 师 的 
工作 内 容 和 要 求 。 这 些 实例 可 以 帮助 广大 的 读者 了 解 掌 握 机 器 学 习 技 
能 以 后 的 工作 和 去 癌 。 二 征 “ 人 工 知 能 热门 应 用 ”， 相 信 不 少 读者 都 听 


说 过 这 些 应 用 的 故事 ， 比 如 无 人 要 驶 车 、AlphaGo 等 。 我 们 和 希望 从 内 
行人 的 角度 ， 解 释 一 下 这 些 超级 应 用 背后 的 原理 是 什么 。 当 你 读 完 本 
T 
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本 书信 息 量 很 大 ， 涉 猎人 工 智能 和 机 器 学 习 的 各 个 子 领域 。 每 个 
公司 、 每 个 业务 、 每 个 职位 ， 不 一 定 会 用 到 全 部 的 技能 。 所 以 关于 阅 
读 这 本 书 ， 我 有 以 下 几 个 建议 。 


(1) 顺 读 法 :从头 至 尾 阅 读 。 如 果 你 能 读 懂 全 部 内 容 ， 所 有 的 题 
日 都 会 解答 ， 欢 迎 你 到 Hulu 来 申请 工作 吧 ! 


(2) 由 简 至 难 法 : 每 道 题 的 旁边 都 标明 了 难度 。 一 星 最 简单 ， 
五 星 最 难 。 在 本 书 中 ， 还 提供 了 一 个 题目 的 列表 。 一 颗 星 的 题目 ， 主 
要 是 介 绍 基本 概念 ， 或 者 是 为 什么 要 做 某 一 件 事 ， 比 如 “什么 是 ROC 
曲线 ? “为 什么 需要 对 数值 类 型 的 特征 做 归 一 化 ? ”。 如 有 果 你 十 机 器 学 
习 的 入 门 学 习 者 ， 可 以 从 背景 知识 和 简单 的 题目 出 发 ， 循 序 渐进 。 


(3) 目标 工作 法 : 不 是 所 有 的 公司 、 所 有 的 职位 都 需要 懂得 各 类 
算法 。 如 采 你 目前 的 工作 或 者 想 去 的 工作 在 某 个 领域 ， 它 们 可 能 会 
到 某 几 类 算法 。 如 果 你 对 某 个 新 的 领域 很 感 兴趣 ， 比 如 循环 神经 网 
络 ， 那 你 可 以 专攻 这 些 章节 。 不 过 无 论 用 哪 类 算法 ， 特 征 工程 、 模 型 
评估 等 基本 技能 都 是 很 重要 的 。 


(4) 互联 网 阅读 法 : 一 本 书 很 难 把 广泛 的 领域 讲 得 面面俱到 ， 尤 
其 是 题目 和 解答 ， 可 以 举一反三 有 很 多 人 花样。 所 以 ， 我 们 在 很 多 章 下 
后 都 有 总 结 和 扩展 。 对 某 个 领域 感 兴趣 的 朋友 们 ， 可 以 以 这 本 书 为 起 
点 ， 深 入 到 扩展 阅读 ， 成 为 这 一 方面 的 专家 。 


(5) 老板 读书 法 : 如 果 你 是 一 个 技术 管理 者 ， 你 需要 解决 的 问题 
是 算法 可 能 对 你 现 有 的 技术 体系 有 什么 帮助 ， 和 怎么 找到 合适 的 人 ， 
帮 你 做 出 智能 的 产品 。 建 议 你 可 以 粗略 地 浏览 一 下 本 书 ， 了 解 机 妖 学 
oo 找到 合适 的 解决 方案 。 然 后 ， 你 残 可 以 用 本 书 作 
Way © 


这 本 书 出 版 的 目的 ， 是 让 更 多 的 人 练习 和 掌握 机 器 学 习 相 关 的 知 
识 ， 帮 助 计算 机 行业 人 员 了 解 算法 工程 师 需 要 的 实际 技能 ， 帮 助 软件 


工程 师 成 为 出 色 的 数据 科学 家 ， 帮 助 公司 的 管理 者 了 解 人 工 智能 系统 
需要 的 人 才 和 和 技能， 帮助 所 有 对 人 工 入 能 和 机 妖 学 习 感 兴趣 的 朋友 们 
走 在 技术 和 时 代 的 前 治 。 


人 工 智能 和 机 器 学 习 的 算法 还 在 日 新 月 异地 发 展 中 ， 这 本 书 也 会 
不 断 更 新 ， 不 断 地 出 新 版 本 。 硕 望 得 到 读者 朋友 们 的 悉心 指正 ， 让 我 


们 一 起 跟 上 这 个 技术 领域 的 进步 步伐 。 


2018 年 4 月 10 日 


机 器 学 习 算法 工程 师 的 目 我 修养 


通 往 机 天 学 习 算 法 工程 师 的 进 阶 之 路 是 崎 蚁 险阻 的 。 《线性 代 
数 》 《统计 学 习 方法 》《 机 右 学 习 》《 模 式 识 别 》《 深 度 学 习 》， 以 
及 《 倾 椎 病 康复 指南 》， 这 些 书籍 将 长 久 地 伴随 着 你 的 工作 生涯 。 


除了 拥有 全 面 、 有 条 理 的 知识 储备 ， 我 认为 ， 想 成 为 一 名 优秀 的 
算法 工程 师 ， 更 重要 的 是 对 算法 模型 有 着 发 目 心底 的 热忱 ， 对 人 研究 工 
作 有 一 种 匠心 精神 。 这 种 匠心 精神 ， 直 日 来 讲 ， 可 以 概括 为 ， 发 现 问 
题 的 眼光 、 解 决 问题 的 探索 精神 ， 以 及 对 问题 完 原 苋 委 的 执着 追求 。 
这 里 ， 我 想 给 大 家 分 享 一 个 小 故事 ， 也 是 发 生 在 本 书 作者 身边 真实 的 


情景 。 


在 微 信 红包 占领 家 家 户 户 年 夜饭 的 那个 时 代 ， 我 们 的 小 伙伴 也 没 
有 例外 。 一 群 心 有 猛 虎 、 细 咒 壮 答 的 算法 研究 员 深 切 意 识 到 目 己 不 仅 
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乏 。 知 识 拯 救命 运 ， 他 们 决定 将 红包 机 制 的 公平 性 提升 到 理论 高 度 。 
通过 大 量 的 模拟 实验 ， 统 计 在 不 同 顺 位 领 到 红包 的 大 小 。 数 据 分 析 显 
示 ， 越 后 面 领 到 红包 的 人 人， 虽然 红包 金额 的 期 望 (均值 ) 和 前 面 的 人 
相同 ， 但 方差 会 更 大 ， 这 也 意味 着 他 们 更 容易 获得 一 些 大 额 红 包 。 从 
此 ， 掌 握 这 一 规律 的 研究 员 们 在 各 个 群 中 “屡试不爽 ”"， 再 也 没有 抢 到 
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新 年 钟 声 融 啊 的 时 分 临近 ，Boss 级 别 的 人 物 往往 会 在 群 里 发 一 些 
超级 大 额 的 红包 。 最 夸张 的 一 次 有 一 位 笠 运 儿 在 10 人 红包 中 领 到 2 角 
钱 ， 还 没 来 得 及 在 心中 完成 < 老板 真 抠 门 ?的 碎 碎 念 ， 抬 头 定 睛 一 看 ， 
最 佳 手气 500 多 元 。 判 在 云 泥 的 手气 昌 没 有 埋 下 同事 关系 间 的 介 蒂 ， 却 
让 这 帮 算 法 工程 师 们 产生 了 新 的 思考 一 一 如 采 把 大 额 红 包 分 成 多 份 给 
RARE, Bib) Anh” ALA TORAH EES? 理论 结合 实际 ， 他 
们 不 仅 通过 数学 推导 确认 这 一 结论 ， 还 设计 了 一 系列 实验 证 明了 多 个 
红包 的 确 会 缩小 不 同人 领 到 红包 金额 之 间 的 差异 性 (方差 | 。 从 此 ， 


他 们 组 的 Leader 在 发 大 红包 的 时 候 都 会 刻意 平均 分 成 几 份 ， 既 增加 了 
大 家 抢 红包 的 乐趣 ， 叉 避免 了 有 人 因 运 气 不 佳 而 扼腕 兴叹 的 导 注 。 


当然 ， 故 事 不 止 于 此 。 他 们 还 利用 红包 的 特性 编写 了 一 系列 面试 
古 ， 篇 选 着 一 批 义 一 批 的 机 器 学 习 算 法 工程 师 ， 例 如 ,， “用 红包 产生 随 
机 数 ”*“ 用 红包 随机 选 出 n 个 候选 人 ”， 诸 如 此 类 源 上 自生 活 的 小 问题 在 本 
书后 续 章 届 中 亦 不 难 寻 其 踪迹 。 


这 种 探究 问题 的 匠心 精神 充 不 着 他 们 生活 的 各 个 角落 。 每 天 下 楼 
吃饭 等 电 标的 时 候 ， 因 担心 上 厕所 错过 电梯 ， 他 们 建立 多 个 模型 分 析 
不 同时 段 电 标 平 均等 待 时 间 对 应 布 所 时 机 的 最 优选 择 ， 在 夕阳 的 余晖 
下 欣赏 湖 光 塔 影 时 ， 他 们 会 思考 为 何 妆 关 波 光 成 了 图 像 编 码 中 的 严 手 
难题 ;打开 购物 APP 看 痢 目 不 眼 接 的 喜欢 抑或 不 喜欢 的 商品 ， 他 们 反 
思 目 己 搭 建 的 推荐 系统 是 否 也 会 让 用 户 有 着 相同 的 无 共 或 是 欣喜 。 每 
一 件 小 事 ， 因 为 对 研究 有 了 热爱 ， 都 可 以 成 为 工作 的 一 部 分 ， 成 为 开 
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工作 中 的 算法 工程 师 ， 很 多 时 候 ， 会 将 生活 中 转瞬 即 逝 的 灵感 ， 
付 诸 产品 化 。 组 里 的 一 位 同事 在 看 某国 产 剧 的 时 候 ， 发 现 可 以 非常 方 
便 地 跳 过 刻 头 和 片尾 。 从 消费 者 的 角度 出 发 ， 这 的 确 是 一 个 大 有 和 神 蔡 
的 产品 特征 ， 于 是 他 仔细 统计 了 我 们 目 己 平台 的 视频 产 数 据 ， 发 现 只 
有 一 部 分 视频 侣 有 片头 、 片 尾 的 时 间 点 信息 ， 而 且 都 是 人 为 标记 的 。 
试想 ， 对 于 一 家 具有 百 万 量 级 内 容 源 的 视频 公司 ， 在 所 有 的 剧 集 上 人 
为 标记 户头 、 片 尾 信息 有 如 天 方 夜 齐 。 通 过 广泛 的 背景 调研 、 方 法 从 
试 ， 搜 取 前 人 工作 之 精华 ， 不 断 加 以 创新 ， 依 据 目 己 的 数据 特点 量 体 
裁 衣 ， 他 们 的 团队 设计 出 了 一 种 基于 深度 神经 网 络 与 浅 层 特征 融合 的 
片尾 目 动 检测 模型 。 经 过 反复 的 迭代 与 充分 的 实验 ， 得 到 了 令 人 满意 
的 结果 。 这 一 工作 也 申请 了 美国 发 明 专 利 ， 并 一 步 步 走 同 产 品 化 。 


将 算法 研究 应 用 到 工作 中 ， 与 纯粹 的 学 术 人 研究 有 着 一 点 最 大 的 不 
同 ， 即 需要 从 用 户 的 角度 思考 问题 。 很 多 时 候 ， 你 需要 明确 设计 的 产 
品 特征 、 提 升 的 数据 指标 ， 征 不 是 能 真正 迎合 用 户 的 需求 ， 这 便 要 求 
算法 工程 师 能 在 多 个 模型 间 选 择 出 最 合适 的 那个 ， 然 后 通过 快速 和 闪 代 
达到 一 个 可 以 走 同 产品 化 的 结果 。 这 种 创新 精神 与 笑 试 精神 便 是 “ 匠 
心 ” 一 词 在 工作 中 的 体现 。 
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征 每 个 算法 工程 师 应 该 融会 贯通 ， 内 化 于 目 己 知识 体系 中 的 。 而 想 成 
为 一 个 研究 专业 或 是 应 用 领域 的 专家 ， 则 需要 在 技能 树 中 的 茶 儿 个 分 
文 不 断 生 长 发 展 。 或 许 大 家 都 听 过 啤酒 与 尿布 的 小 故事 ， 但 搭建 一 个 
成 熟 、 稳 定 的 推荐 系统 ， 不 仅 需要 通晓 降 维 (第 4 章 ) 、 优 化 算法 (第 
7 章 ) ， 更 要 对 神经 网 络 〈 第 9 章 、 第 10 章 ) 、 强 化 学 习 〈 第 11 章 ) 等 
新 生 代 模型 不 断 钉 人 研 、 深 入 理解 ， 将 学 术 前 党 与 产品 形态 紧密 结合 。 
例如 ， 奢 是 在 技能 树 中 专攻 马尔 可 夫 模 型 、 主 题 模 型 (第 6 章 ) ， 建 立 
完整 的 概率 图 模型 知识 网 络 ， 并 将 循环 神经 网 络 〈 第 10 章 ) 的 理论 体 
系 融 会 吐 通 ， 形 成 目 己 独到 的 理解 和 感悟 ， 便 可 以 在 机 紫 翻 译 、 语 首 
聊天 助手 等 目 然 语言 处 理 的 应 用 场景 中 敬 轻 束 熟 ， 游 力 有 余 。 


成 为 机 需 学 习 算法 工程 师 的 道路 固然 崎 蚁 ， 却 充满 痢 族 施 和 壮 
益 。 你 需要 做 的 只 是 ， 想 清 目 己 真 正 想 成 为 的 那个 角色 ， 踏 踏实 实地 
在 本 书 中 汲取 足够 多 的 养分 ， 然 后 ， 静 静 合 上 书页 ， 在 生活 中 体会 种 
PT, RULARE >) HERR R o 


萌 户 娃 
2018 年 4 月 


第 1 章 ”特征 工程 


为 什么 需要 对 数值 类 型 的 特征 做 归 一 化 ? 
怎样 处 理 类 别 型 特征 ? 
什么 是 组 合 特征 ?如 何 处 理 高 维 组 合 特征 人 
怎样 有 效 地 找到 组 合 特征 1 


有 哪些 文本 表示 模型 ? 它们 各 有 什么 优 缺 点 ? 
如 何 缓解 图 像 分 类 任务 中 训练 数据 不 足 带 来 的 问题 ? 
| 


Cora 
ooa [aes | 
[ooe ase | 
Corn 
font | 
fois [aes | 
[| I] 


Word2Vec 是 如 何 工作 的 ? 它 和 隐 狄 利克 雷 模型 有 什么 


区 别 与 联系 ? 


第 2 章 ”模型 评估 
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如 何 进 行 线 上 A/B 测 试 ? 
过 拟 合 和 人 欠 拟 合 具 体 是 指 什 么 现象 ? 


MA 
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第 1 章 ”特征 工程 


俗话 说 ,，“ 巧 妇 难 为 无 米 之 炊 ”。 在 机 器 学 习 中 ， 数 据 和 特征 便 
是 “ 米 ”"， 模 型 和 算法 则 是 “ 巧 妇 ”。 没 有 充足 的 数据 、 合 适 的 特征 ， 青 
强大 的 模型 结构 也 无 法 得 到 满意 的 输出 。 正 如 一 句 业 界 经 典 的 话 所 
Wi, “Garbage in，garbage out”。 对 于 一 个 机 器 学 习 问 题 ， 数 据 和 特征 
oe 而 模型 、 算 法 的 选择 及 优化 则 是 在 逐步 接近 
这 个 上 限 。 


特征 工程 ， 顾 名 思 义 ， 是 对 原始 数据 进行 一 系列 工程 处 理 ， 将 其 
提炼 为 特征 ， 作 为 输入 供 算 法 和 模型 使 用 。 从 本 质 上 来 讲 ， 特 征 工程 
古 一 个 表示 和 展现 数据 的 过 程 。 在 实际 工作 中 ， 特 征 工程 由 在 去 除 原 
始 数据 中 的 杂质 和 元 余 ， 设 计 更 高 效 的 特征 以 刻画 求解 的 问题 与 预测 
模型 之 间 的 关系 。 


本 章 主要 讨论 以 下 两 种 常用 的 数据 类 型 。 


(1) 结构 化 数据 。 结 构 化 数据 类 型 可 以 看 作 关系 型 数据 库 的 一 张 
表 ， 每 列 都 有 清晰 的 定义 ， 包 含 了 数值 型 、 类 别 型 两 种 基本 类 型 ， 每 
一 行 数据 表示 一 个 样本 的 信息 。 


(2) 非 结 构 化 数据 。 非 结构 化 数据 主要 包括 文本 、 图 像 、 首 频 、 
视频 数据 ， 其 包含 的 信息 无 法 用 一 个 简单 的 数值 表示 ， 也 没有 清晰 的 
类 别 定 义 ， 并 且 每 条 数据 的 大 小 各 不 相同 。 


01 特征 归 一 化 


为 了 消除 数据 特征 之 间 的 量 纲 影响 ， 我 们 需要 对 特征 进行 归 一 化 
处 理 ， 使 得 不 同 指标 之 间 具 有 可 比 性 。 例 如 ， 分 析 一 个 人 的 身高 和 体 
重 对 健康 的 影响 ， 如 果 使 用 米 (m) 和 千克 (kg) 作为 单位 ， 那 么 身 
高 特征 会 在 1.6~1.8m 的 数值 范围 内 ， 体 重 特征 会 在 50~100kg 的 范围 
内 ,分 析出 来 的 结果 显然 会 倾向 于 数值 差别 比较 大 的 体重 特征 。 想 要 
得 到 更 为 准确 的 结果 ， 就 需要 进行 特征 归 一 化 (Normalization) 处 
理 ， 使 各 指标 处 于 同一 数值 量 级 ， 以 便 进 行 分 析 。 


知识 点 
特征 归 一 化 


问题 为 什么 需要 对 数值 类 型 的 特征 做 归 一 化 ? 


IERE: AN 
分 析 与 解答 


对 数值 类 型 的 特征 做 归 一 化 可 以 将 所 有 的 特征 都 统一 到 一 个 大 致 
相同 的 数值 区 间 内 。 最 彰 用 的 方法 主要 有 以 下 两 种 。 


(1) 线性 函数 归 一 化 (Min-Max Scaling) 。 它 对 原始 数据 进行 
线性 变换 ， 使 结果 映射 到 [0, 1] 的 范围 ， 实 现 对 原始 数据 的 等 比 缩放 。 
VAC 000 F 
A = X A min 

A a a s 


(1.1) 
其 中 X 为 原始 数据 ，X Xi 分 别 为 数据 最 大 值 和 最 小 值 。 
(2) 零 均 值 归 一 化 (Z-Score Normalization) 。 它 会 将 原始 数据 


映射 到 均值 为 0、 标 准 关 为 1 的 分 布 上 。 具 体 来 说 ， 假 设 原 始 特征 的 均 
值 为 8、 标 准 关 为 0， 那么 归 一 化 公式 定义 为 


(1.2) 


为 什么 需要 对 数值 型 特征 做 归 一 化 呢 ? 我 们 不 妨 借助 随机 梯度 下 
降 的 实例 来 说 明 归 一 化 的 重要 性 。 假 设 有 两 种 数值 型 特征 ，xj 的 取 值 
范围 为 [0, 10]，x2 的 取 值 范围 为 [0, 3]， 于 是 可 以 构造 一 个 目标 函数 符 
合 图 1.1 (a) 中 的 等 值 图 。 


在 学 习 速 率 相 同 的 情况 下 ，xj 的 更 新 速度 会 大 于 x，， 需 要 较 多 的 
迭代 才能 找到 最 优 解 。 如 果 将 xy 和 x: 归 一 化 到 相同 的 数值 区 间 后 ， 优 
化 目标 的 等 值 图 会 变 成 图 1.1 (b) 中 的 贺 形 ，xj 和 x 的 更 新 速度 变 得 更 
为 一 致 ， 容 易 更 快 地 通过 梯度 下 降 找 到 最 优 解 。 


(a) 未 归 一 化 数据 的 梯度 下 降 过 程 (b ) 归 一 化 数据 的 梯度 下 降 过 程 


图 1.1 数据 归 一 化 对 梯度 下 降 收 敛 速度 产生 的 影响 


当然 ， 数 据 归 一 化 并 不 是 万 能 的 。 在 实际 应 用 中 ， 通 过 梯度 下 降 
法 求解 的 模型 通常 是 需要 归 一 化 的 ， 包 括 线性 回归 、 逻 辑 回 归 、 文 持 
向 量 机 、 神 经 网 络 等 模型 。 但 对 于 决策 树 模型 则 并 不 适用 ， 以 C4.5 为 
例 ， 决 策 树 在 进行 和 节点 分 裂 时 主要 依据 数据 集 D 关 于 特征 x 的 信息 增 荔 
比 〈 详 见 第 3 章 第 3 节 ) ， 而 信息 增益 比 跟 特 征 是 否 经 过 归 一 化 是 无 关 
的 ， 因 为 归 一 化 并 不 会 改变 样本 在 特征 x 上 的 信息 增益 。 


02 ”类 别 型 特征 


场景 描述 


类 别 型 特征 (Categorical Feature) 主要 是 指 性 别 (E`) > il 
型 (A+B. AB.O) 等 只 在 有 限 选 项 内 取 值 的 特征 。 类 别 型 特征 原始 
输入 通常 是 字符 串 形式 ， 除 了 决策 树 等 少数 模型 能 直接 处 理 字 符 串 形 
式 的 输入 ， 对 于 逻辑 回归 、 支 持 癌 量 机 等 模型 来 说 ， 类 别 型 特征 必须 
经 过 处 理 转 换 成 数值 型 特征 才能 正确 工作 。 


知识 点 


序号 编码 (Ordinal Encoding) 、 独 热 编 码 (One-hot Encoding) ` 
二 进 制 编码 (Binary Encoding) 


li 在 对 数据 进行 预 处 理 时 ， 应 该 怎样 处 理 类 别 型 特 


IERE: AAA 
分 析 与 解答 
a 序号 编码 


序号 编码 通 闻 用 于 处 理 类 别 间 具有 大 小 关系 的 数据 。 例 如 成 绩 ， 
可 以 分 为 低 、 中 、 高 三 档 ， 并 且 存 在 “高 > 中 > 低 ” 的 排序 天 系 。 序 与 编 


码 会 按照 大 小 关系 对 类 别 型 特征 赋予 一 个 数值 ID ， 例 如 高 表示 为 3、 
中 表示 为 2、 低 表示 为 1， 转 换 后 依然 保留 了 大 小 关系 。 


m 独 热 编码 


独 热 编码 通常 用 于 处 理 类 别 间 不 具有 大 小 关系 的 特征 。 例 如 血 
型 ， 一 共有 4 个 取 值 (A 型 血 、B 型 血 、AB 型 血 、O 型 血 ) ， 独 热 编码 
ee B 型 血 表 
示 为 (0,1,0,0) ，AB 型 表示 为 (0,0,1,0) ，O 型 血 表 示 为 (0,0,0, 
1) ,对 于 类 别 取信 较 多 的 情况 下 使 用 独 热 编 襄 需要 注意 以 下 问题 。 


(1) 使 用 稀 玻 向 量 来 节省 空间 。 在 独 热 编码 下 ， 特 征 向 量 只 有 某 
一 维 取 值 为 1， 其 他 位 置 取 值 均 为 0。 因 此 可 以 利用 回 量 的 稀 蔚 表示 有 
效 地 省 至 间 ， 并 且 目 前 大 部 分 的 算法 均 接 受 稀 焉 癌 量 形式 的 输入 。 


(2) 配合 特征 选择 来 降低 维度 。 高 维度 特征 会 带 来 几 方面 的 问 
题 。 一 是 在 K 近 邻 算 法 中 ， 高 维 空间 下 两 点 之 间 的 距离 很 难得 到 有 效 
的 衡量 ， 二 是 在 逻辑 回归 模型 中 ， 参 数 的 数量 会 随 着 维度 的 增高 而 增 
加 ， 容 易 引 起 过 拟 合 问题 ， 三 是 通常 只 有 部 分 维度 是 对 分 类 、 预 测 有 
帮助 ， 因 此 可 以 考虑 配合 特征 选择 来 降低 维度 。 


二进制 编码 


二 进 制 编码 主要 分 为 两 步 ， 先 用 序号 编码 给 每 个 类 别 赋予 一 个 类 
别 ID， 然 后 将 类 别 ID 对 应 的 二 进 制 编码 作为 结果 。 以 A、B、AB、O 
血型 为 例 ， 表 1.1 是 二 进 制 编码 的 过 程 。 。A 型 血 的 ID 为 1， 二 进 制 表示 为 
001; B 型 血 的 ID 为 2， 二 进 制 表示 为 010， 以 此 类 推 可 以 得 到 AB 型 血 
和 0O 型 血 的 二 进 制 表示 。 可 以 看 出 ， 二 进 制 编 码 本 质 上 是 利用 二 进 制 
对 ID 进行 哈 硕 映射 ， 最 终 得 到 0/1 特 征 同 量 ， 且 维 数 少 于 独 热 编码 ， 古 
省 了 存储 空间 © 


表 1.1 二 进 制 编码 和 独 热 编 码 


TT 


除了 本 章 介 绍 的 编码 方法 外 ， 有 兴趣 的 读者 还 可 以 进一步 了 解 其 
他 的 编码 方式 ， 比 如 Helmert Contrast œ Sum Contrast ` Polynomial 
Contrast ` Backward Difference Contrast 等 。 


03 ”高 维 组 合 特征 的 处 理 


问题 什么 是 组 合 特征 ? 如何 处 理 高 维 组 合 特征 ? 


TERE: tek tears 
分 析 与 解答 


为 了 提高 复杂 关系 的 拟 合 能 力 ， 在 特征 工程 中 经 种 会 把 一 阶 离散 
特征 两 两 组 合 ， 构 成 高 阶 组 合 特征 。 以 广告 点 击 预 估 问 题 为 例 ， 原 始 
数据 有 语言 和 类 型 两 种 离散 特征 ， 表 1.2 是 语言 和 类 型 对 点 击 的 影响 。 
为 了 提高 拟 合 能 力 ， 语 言 和 类 型 可 以 组 成 二 阶 特征 ， 表 1.3 是 语言 和 类 
型 的 组 合 特征 对 点 击 的 影响 。 


表 1.2 语言 和 类 型 对 点 击 的 影响 


0 英文 电视剧 


表 1.3 ”语言 和 类 型 的 组 合 特征 对 点 击 的 影响 


以 逻辑 回归 为 例 ， 假 设 数据 的 特征 同 量 为 X=(xj,x2,…,Xj)， 则 有 ， 


Y =sigmoid()) w; < x, x; >) 
i J , 


(1.3) 


其 让 < Xi> 表 示 X% 和 X 的 组 合 特征 ， w HIZB BE SEF [xix il 和 xi 分 别 

代表 第 i 个 特征 和 第 j 个 特征 不 同 取 值 的 个 数 。 在 表 1.3 的 广告 点 击 预测 

问题 中 ，w 的 维度 是 2x2=4 (语言 取 值 为 中 文 或 英文 两 种 、 类 型 的 取 值 
为 电影 或 电视 剧 两 种 ) 。 这 种 特征 组 合 看 起 来 是 没有 任何 问题 的 ， 但 
当 引 入 ID 类 型 的 特征 时 ， 问 题 焉 出 现 了 。 以 推荐 问题 为 例 ， 表 1.4 是 用 
F m 品 ID 对 点 击 的 影响 ， 表 1.5 是 用 户 ID 和 物品 卫 的 组 合 特征 对 点 
击 的 影响 。 


表 1.4 ”用 户 ID 和 物品 ID 对 点 击 的 影响 


| 


7a A PA Am > Ye An, BBA te BF > SR RS 
为 mxn。 在 互联 网 环境 下 ， 用 户 数量 和 物品 数量 都 可 以 达到 千 万 量 
级 ， 几 乎 无 法 学 习 mxn 规 模 的 参数 。 在 这 种 情况 下 ， 一 种 行 之 有 效 的 
方法 是 将 用 户 和 物品 分 别 用 k 维 的 低 维 向 量 表示 (k<<m,k<<n) ， 


Y= Sigmoid(》 > w, < X, X; >) 
t-f ; 


(1.4) 


Herp wy = sirj, A USS ARRAN x AMX REE e ER 
1.5 的 推荐 问题 中 ， 需 要 学 习 的 参数 的 规模 变 为 mxk+nxk。 熟 悉 推 荐 算 
法 的 同学 很 快 可 以 看 出 来 ， 这 其 实 等 价 于 矩阵 分 解 。 所 以 ， 这 里 也 所 
供 了 男 一 个 理解 推荐 系统 中 和 矩阵 分 解 的 思路 。 


04 ”组 合 特征 


场景 描述 


圭一 市 介绍 了 如 何 利 用 降 维 方法 来 减少 两 个 高 维特 征 组 合 后 需要 
学 习 的 参数 。 但 是 在 很 多 实际 问题 中 ， 我 们 逢 币 需要 面 对 多 种 高 维特 
征 。 如 采 简 单 地 两 两 组 合 ， 依 然 容易 存在 参数 过 多 、 过 拟 合 等 问题 ， 
而 且 并 不 是 所 有 的 特征 组 合 都 是 有 意义 的 。 因 此 ， 需 要 一 种 有 效 的 方 
法 来 帮助 我 们 找到 应 该 对 哪些 特征 进行 组 合 。 


知识 点 


问题 ”怎样 有 效 地 找到 组 合 特征 ? 


难度 : kN 


分 析 与 解答 


本 市 介绍 一 种 基于 决策 树 的 特征 组 合 寻找 方法 对 (关于 决策 树 的 
详细 内 容 可 见 第 3 章 第 3 节 ) 。 以 点 击 预测 问题 为 例 ， 假 设 原始 输入 特 
征 包 含 年 龄 、 性 别 、 用 户 类 型 (试用 期 、 付 费 ) 、 物 品类 型 (护肤 、 
cm) 4 个 方面 的 信息 ， 并 且 根 据 原始 输入 和 标签 点击/ 未 点 击 ) 
构造 出 了 决策 树 ， 如 图 1.2 所 示 。 


于 是 ， 每 一 条 从 根 节 点 到 叶 节 点 的 路 径 都 可 以 看 成 一 种 特征 组 合 
的 方式 。 具 体 来 说 ， 就 有 以 下 4 种 特征 组 合 的 方式 。 


(1) “年 龄 <=35” 且 “性 别 = 女 ”。 

(2) “年 龄 <=35? 且 "物品 类 别 = 护肤 ”。 

(3) “用 户 类 型 = 付费 " 且 “ 物 品类 型 = 食品 ”。 
(4) “用 户 类 型 = 付费 ” 且 "“ 年 龄 <=40”。 


输入 : 原始 特征 【年 龄 、 性 
别 、 用 户 类 型 、 物 品类 型 


图 1.2 基于 决策 树 的 特征 组 合 方法 


表 1.6 是 两 个 样本 人 信息， 那么 第 1 个 样本 按照 上 述 4 个 特征 组 合 就 可 
以 编码 为 (1, 1, 0, 0) ， 因 为 同时 满足 (1) (2) ， 但 不 满足 (3) 
(4) 。 同 理 ， 第 2 个 样本 可 以 编码 为 〈0, 0, 1, 1) ， 因 为 它 同时 满足 
(3) (4) ， 但 不 满足 (1) (2) 。 


表 1.6 ”两 个 不 同样 本 对 应 的 原始 输入 特征 


给 定 原 始 输 入 该 如 何 有 效 地 构造 决策 树 呢 ? 可 以 采用 梯度 提升 决 
策 树 ， 该 方法 的 思想 是 每 次 都 在 之 前 构建 的 决策 树 的 残 差 上 构建 下 一 
棵 决策 树 。 对 梯度 提升 决策 树 感 兴趣 的 读者 可 以 参考 第 12 章 的 具体 内 
容 ， 也 可 以 阅读 参考 文献 [1 。 


05 文本 表示 模型 


场景 描述 


文本 是 一 类 非常 重要 的 非 结 构 化 数据 ， 如 何 表示 文本 数据 一 直 是 
机 器 学 习 领 域 的 一 个 重要 研究 方 同 。 


知识 点 


词 袋 模型 (Bag of Words) , TF-IDF (Term Frequency-Inverse 
Document Frequency) ， 主 题 模型 (Topic Model) , tl ie A te W 
(Word Embedding) 


问题 有 哪些 文本 表示 模型 ? 它们 各 有 什么 优 缺点 ? 


IERE AAA 
分 析 与 解答 


m 词 袋 模型 和 N-gram 模 型 


最 基础 的 文本 表示 模型 是 词 袋 模型 。 顾 名 思 义 ， 驶 旦 将 每 篇 文章 
看 成 一 袋子 词 ， 并 忽略 每 个 词 出 现 的 顺序 。 具 体 地 说 ， 束 是 将 整 段 文 
本 以 词 为 单位 切 分 开 ， 然 后 每 篇 文章 可 以 表示 成 一 个 长 癌 量 ， 回 量 中 
的 每 一 维 代表 一 个 单词 ， 而 该 维 对 应 的 权重 则 反映 了 这 个 词 在 原文 章 
中 的 重要 程度 。 常 用 TF-IDF 来 计算 权重 ， 公 式 为 


TF-IDF(t,d)=TF(t,d)xIDF(t) , 
(1.5) 


其 中 TF(d) 为 单词 三 文档 dg 中 出 现 的 频率 ，IDF(D 是 逆 文 档 频率 ， 用 来 
衡量 单词 对 表达 语义 所 起 的 重要 性 ， 表 示 为 


文章 总 数 
IDEF(D=log 包 含 单词 的 文章 总 数 +1 . 


(1.6) 


直观 的 解释 是 ， 如 果 一 个 单词 在 非常 多 的 文章 里 面 都 出 现 ， 那 么 它 可 
能 是 一 个 比较 通用 的 词汇 ， 对 于 区 分 某 篇 文章 特殊 语义 的 贡献 较 小 ， 
因此 对 权重 做 一 定 惩罚 。 


将 文章 进行 单词 级 别 的 划分 有 时 候 并 不 是 一 种 好 的 做 法 ， 比 如 英 
文中 的 natural language processing 〈 上 自然 语言 处 理 ) 一 词 ， 如 果 将 
natural ，language，Pprocessing 这 3 个 词 拆 分 开 来 ， 所 表达 的 含义 与 三 个 
词 连续 出 现时 大 相 径 庭 。 通 常 ， 可 以 将 连续 出 现 的 n 个 词 (n<N) 组 成 
的 词组 (N-gram) 也 作为 一 个 单独 的 特征 放 到 向 量 表示 中 去 ， 构 成 N- 
gram 模 型 。 男 外 ， 同 一 个 词 可 能 有 多 种 词性 变化 ， 却 具有 相似 的 舍 
义 。 在 实际 应 用 中 ， 一 般 会 对 单词 进行 词 干 抽取 (Word Stemming) 
处 理 ， 即 将 不 同 词性 的 单词 统一 成 为 同一 词 干 的 形式 。 


a 主题 模型 


主题 模型 用 于 从 文本 库 中 发 现 有 代表 性 的 主题 (得 到 每 个 主题 上 
面 词 的 分 布 特性 ) ， 并 且 能 够 计算 出 每 篇 文章 的 主题 分 布 ， 具 体 细节 
参见 第 6 章 第 5 节 。 


n FA SRE 
词 嵌 入 是 一 美 将 词 向 量化 的 模型 的 统称 ， 核 心思 想 是 将 每 个 词 都 
映射 成 低 维 空间 GB K=50~ 30048) 上 的 一 个 稠密 向 量 (Dense 


Vector) 。K 维 空间 的 每 一 维 也 可 以 看 作 一 个 隐 舍 的 主题 ， 只 不 过 不 像 
主题 模型 中 的 主题 那样 直观 。 


由 于 词 租 入 将 每 个 词 映 射 成 一 个 K 维 的 向 量 ， 如 果 一 篇 文档 有 N 个 
词 ， 束 可 以 用 一 个 NxK 维 的 矩阵 来 表示 这 篇 文档 ， 但 是 这 样 的 表示 过 
于 属 层 。 在 实际 应 用 中 ， 如 末 仪 仅 把 这 个 矩阵 作为 原文 本 的 表示 特征 
输入 到 机 器 学 习 模 型 中 ， 通 常 很 难得 到 令 人 满意 的 结 采 。 因 此 ， 还 需 
要 在 此 基础 之 上 加 工 出 更 高 层 的 特征 。 在 传统 的 浅 层 机 絮 学 习 模 型 
中 ， 一 个 好 的 特征 工程 往往 可 以 带 来 算法 效果 的 显著 提升 。 而 深度 学 
习 模 型 正好 为 我 们 提供 了 一 种 目 动 地 进行 特征 工程 的 方式 ， 模 型 中 的 
每 个 隐 层 都 可 以 认为 对 应 着 不 同 抽象 层次 的 特征 。 从 这 个 角度 来 讲 ， 
深度 学 习 模 型 能 够 打败 浅 层 模型 也 束 顺 理 成 草 了 。 卷 积 神经 网 络 和 循 
环 神经 网 络 的 结构 在 文本 表示 中 取得 了 很 好 的 效 采 ， 主 要 是 由 于 它们 
能 够 更 好 地 对 文本 进行 建 模 ， 抽 取出 一 些 高 层 的 语义 特征 。 与 全 连接 
的 网 络 结构 相 比 ， 卷 积 神经 网 络 和 循环 神经 网 络 一 方面 很 好 地 抓 住 了 
文本 的 特性 ， 另 一 方面 又 减少 了 网 络 中 待 学 习 的 参数 ， 提 高 了 训练 速 
度 ， 并 且 降 低 了 过 拟 合 的 风险 。 


06 Word2Vec 


场景 描述 


谷歌 2013 年 提出 的 Word2Vec 是 目前 最 常用 的 词 舱 入 模型 之 一 。 
Word2Vec 实 际 是 一 种 浅 层 的 神经 网 络 模 型 ， 它 有 两 种 网 络 结构 ， 分 别 
是 CBOW (Continues Bag of Words) 和 Skip-gram ° 


知识 点 
Word2Vec， 隐 狄 利克 雷 模 型 (LDA) , CBOW, Skip-gram 


Word2Vec 是 如 何 工 作 的 ? 它 和 LDA 有 什么 区 别 与 
系 ? 


MEE: tok dese 


分 析 与 解答 


CBOW 的 目标 是 根据 上 下 文 出 现 的 词语 来 预测 当前 词 的 生成 概 
率 ， 如 图 1.3 (a) 所 示 ; 而 Skip-gram 是 根据 当前 词 来 预测 上 下 文中 各 
词 的 生成 概率 ， 如 图 1.3 (b) 所 示 。 


输入 层 wh Sif Jet 输出 层 输入 层 映射 层 输出 层 


(a) CBOW (b) Skip-gram 


图 1.3 ”WwWord2Vec 的 两 种 网 络 结构 


其 中 w(D 是 当前 所 关注 的 词 ，w((-2)、w(trD、w(ttD、w(tt2) 是 上 
下 文中 出 现 的 词 。 这 里 前 后 滑动 窗口 大 小 均 设 为 2。 


CBOW 和 Skip-gram 都 可 以 表示 成 由 输入 层 (Input) ` BROS 
(Projection) 和 输出 层 (Output) 组 成 的 神经 网 络 。 


输入 层 中 的 每 个 词 由 独 热 编码 方式 表示 ， 即 所 有 词 均 表示 成 一 个 
N 维 问 量 ， 其 中 N 为 词汇 表 中 单词 的 总 数 。 在 同 量 中 ， 每 个 词 都 将 与 之 
对 应 的 维度 置 为 1， 其 余 维度 的 值 均 设 为 0。 


在 映射 层 〈 又 称 隐 含 层 ) F, KEE AJE (Hidden Units) 的 取 
值 可 以 由 NN 维 输入 向 量 以 及 连接 输入 和 隐 伟 单元 之 间 的 NxK 维 权重 算 
sl le 。 在 CBOW 中 ， 还 需要 将 各 个 输入 词 所 计算 出 的 隐 含 单元 
sk 和 o 


同 理 ， 输 出 层 向 量 的 值 可 以 通过 隐 含 层 向 量 (K 维 ) ， 以 及 连接 
隐 含 层 和 输出 层 之 间 的 KxN 维 权重 窍 阵 计 算得 到 。 输 出 层 也 是 一 个 N 
AE [A], RAE STALE PAS AT Do a, RIA 
用 Softmax 激 活 函 数 ， 可 以 计算 出 每 个 单词 的 生成 概率 。Softmax 激 活 
函数 的 定义 为 


e™ 
N 
k= 


26 


P(y =w, bx) = 


d 


(1.7) 


其 中 x 代表 NN 维 的 原始 输出 向 量 ，x 为 在 原始 输出 向 量 中 ， 与 单词 w, 所 
对 应 维度 的 取 值 。 


授 下 来 的 任务 就 是 训练 神经 网 络 的 权重 ， 使 得 语 料 座 中 所 有 单词 
的 整体 生成 概率 最 大 化 。 从 输入 层 到 隐 售 层 需要 一 个 维度 为 NxK 的 权 
重 和 矩阵 ， 从 隐 舍 层 到 输出 层 义 需要 一 个 维度 为 KxN 的 权重 矩阵 ， 学 习 
权重 可 以 用 反 向 传播 算法 实现 ， 每 次 迭代 时 将 权重 沿 梯度 更 优 的 方 癌 
进行 一 小 步 更 新 。 但 是 由 于 Softmax 激 活 函 数 中 存在 归 一 化 项 的 缘故 ， 
推导 出 来 的 迭代 公式 需要 对 词汇 表 中 的 所 有 单词 进行 志 历 ， 使 得 每 次 
迭代 过 程 非常 缓慢 ， 由 此 产生 T Hierarchical Softmax 和 Negative 
Sampling 两 种 改进 方法 ， 有 兴趣 的 读者 可 以 参考 Word2Vec 的 原 论文 
[3]。 训 | 练 得 到 维度 为 NxK 和 KxN 的 两 个 权重 矩阵 之 后 ， 可 以 选择 其 中 
一 个 作为 N 个 词 的 K 维 向 量 表示 。 


谈 到 Word2Vec 与 LDA 的 区 别 和 联系 ， 首 先 ，LDA 是 利用 文档 中 单 
词 的 共 现 关系 来 对 单词 按 主题 健 类 ， 也 可 以 理解 为 对 “文档 -单词 "矩阵 
进行 分 解 ， 得 到 “文档 -主题 "和 “主题 -单词 ”两 个 概率 分 布 。 而 
Word2Vec 其 实 是 对 “上 和 下文- 单词 ”矩阵 进行 学 习 ， 其 中 上 下 文 由 周围 的 
几 个 单词 组 成 ， 由 此 得 到 的 词 向 量 表示 更 多 地 融入 了 上 下 文 共 现 的 特 
征 。 也 就 是 说 ， 如 果 两 个 单词 所 对 应 的 Word2Vec 回 量 相似 度 较 高 ， 那 
么 它们 很 可 能 经 常 在 同样 的 上 下 文中 出 现 。 需 要 说 明 的 是 ， 上 述 分 析 
的 是 LDA 与 Word2Vec 的 不 同 ， 不 应 该 作为 主题 模型 和 词 舱 入 两 类 方法 
的 主要 差异 。 主 题 模型 通过 一 定 的 结构 调整 可 以 基于 “上 下 文 -单词 ” 矩 
阵 进 行 主 题 推 理 。 同 样 地 ， 词 嵌入 方法 也 可 以 根据 “文档 -单词 ?矩阵 学 
习 出 词 的 隐 仿 向量 表示 。 主题 模型 和 词 舱 入 两 类 方法 最 大 的 不 同 其 实 
在 于 模型 本 身 ， 主 题 模型 是 一 种 基于 概率 图 模型 的 生成 式 模型 ， 其 似 
然 画 数 可 以 写成 知 干 条 件 概 率 连 乘 的 形式 ， 其 中 包括 需要 推测 的 隐 含 
变量 〈 即 主题 ) ; 而 词 租 入 模型 一 般 表 达 为 神经 网 络 的 形式 ， 似 然 函 
ee 需要 通过 学 习 网 络 的 权重 以 得 到 单词 的 笛 
密 向 量 表示 。 


07 图像 数 据 不 足 时 的 处 理 方法 


场景 描述 


在 机 亏 学 习 中 ， 绝 大 部 分 模型 都 需要 大 量 的 数据 进行 训练 和 学 习 
(包括 有 监督 学 习 和 无 监督 学 习 ) ， 然 而 在 实际 应 用 中 经 常会 遇 到 训 
练 数据 不 足 的 问题 。 比 如 图 像 分 类 ， 作 为 计算 机 视觉 最 基本 的 任务 之 
一 ， 其 目标 是 将 每 幅 图 像 划 分 到 指定 类 别 集 合 中 的 一 个 或 多 个 类 别 
中 。 当 训练 一 个 图 像 分 类 模型 时 ， 如 果 训 练 样本 比较 少 ， 该 如 何 处 理 
呢 ? 


知识 点 


迁移 学 习 (Transfer Learning) ， 生 成 对 抗 网 络 ， 图 像 处 理 ， 上 采 
样 技术 ， 数 据 扩充 


问题 在 图 像 分 类 任务 中 ， 训 练 数据 不 足 会 带 来 什么 问 
题 ? 如 何 缓 解数 据 量 不 足 带 来 的 问题 ? 


RE: kN 


分 析 与 解答 


一 个 模型 所 能 提供 的 信息 一 般 来 源 于 两 个 方面 ， 一 是 训练 数据 中 
型 含 的 信息 ; 二 是 在 模型 的 形成 过 程 中 (包括 构造 、 学 习 、 推 理 
等 ) ， 人 们 提供 的 先 验 信息 。 当 训练 数据 不 足 时 ， 说 明 模 型 从 原始 净 
据 中 获取 的 信息 比较 少 ， 这 种 情况 下 要 想 保 证 模型 的 效果 ， 束 需要 更 


多 先 验 信息 。 先 验 信息 可 以 作用 在 模型 上 ， 例 如 让 模型 采用 特定 的 内 
在 结构 、 条 件 假设 或 添加 其 他 一 些 约束 条 件 ; 先 验 信 息 也 可 以 直接 施 
加 在 数据 集 上 ， 即 根据 特定 的 先 验 假设 去 调整 、 变 换 或 扩展 训练 数 
据 ， 让 其 展现 出 更 多 的 、 更 有 用 的 信息 ， 以 利于 后 续 模 型 的 训练 和 学 
习 o 


具体 到 图 像 分 类 任务 上 上， 训练 数据 不 足 带 来 的 问题 主要 表现 在 过 
拟 合 方面 ， 即 模型 在 训练 样本 上 的 效果 可 能 不 错 ， 但 在 测试 集 上 的 泛 
化 效果 不 佳 。 根 据 上 述 讨 论 ， 对 应 的 处 理 方法 大 致 也 可 以 分 两 类 ， 一 
是 基于 模型 的 方法 ， 主 要 是 采用 降低 过 拟 合 风险 的 措施 ， 包 括 简化 模 
型 (如 将 非 线 性 模型 简化 为 线性 模型 ) 、 添 加 约束 项 以 缩小 假设 空间 
(如 LWL2 正 则 项 ) 、 集 成 学 习 、Dropout 超 参数 等 ， 二 是 基于 数据 的 
方法 ， 主 要 通过 数据 扩充 (Data Augmentation) ， 即 根据 一 些 先 验 知 
识 ， 在 保持 特定 信息 的 前 提 下 ， 对 原始 数据 进行 适当 变换 以 达到 扩充 
数据 集 的 效果 。 具 体 到 图 像 分 类 任务 中 ， 在 保持 图 像 类 别 不 变 的 前 提 
下 ， 可 以 对 训练 集中 的 每 幅 图 像 进行 以 下 变换 。 


(1) 一 定 程度 内 的 随机 旋转 、 平 移 、 缩 放 、 裁 甬 、 填 充 、 左 右 翻 
转 等 ， 这 些 变换 对 应 着 同一 个 目标 在 不 同 角度 的 观察 结 采 。 


(2) 对 图 像 中 的 像素 添加 噪声 扰动 ， 比 如 椒盐 噪声 、 高 斯 白 噪声 


a 


(3) 颜色 变换 。 例 如 ， 在 图 像 的 RGB 颜色 空间 上 进行 主 成 分 分 
析 ， 得 到 3 个 主 成 分 的 特征 问 量 pj,p,p3 及 其 对 应 的 特征 值 和 ,42,43， 然 
后 在 每 个 像素 的 RGB 值 上 添加 增 量 [P Ppl [a110 2A2,03A3]! ， 其 中 
qawqs 是 均值 为 0、 方 差 较 小 的 高 斯 分 布 随 机 数 。 

(4) 改变 图 像 的 亮度 、 清 晰 度 、 对 比 度 、 锐 度 等 。 


图 1.4 展 示 了 一 些 图 像 扩 充 的 具体 样 例 。 


图 1.4 图 像 数 据 扩充 样 例 


除了 直接 在 图 像 空 间 进行 变换 ， 还 可 以 先 对 图 像 进 行 特征 提取 ， 
然后 在 图 像 的 特征 空间 内 进行 变换 ， 利 用 一 些 通用 的 数据 扩充 或 上 采 
样 技术 ， 例 如 SMOTE (Synthetic Minority Over-sampling Technique ) 
算法 。 抛 开 上 述 这 些 局 发 式 的 变换 方法 ， 使 用 生成 模型 也 可 以 合成 一 
些 新 样本 ， 例 如 当今 非常 流行 的 生成 式 对 抗 网 络 模型 。 


此 外 ， 借 助 已 有 的 其 他 模型 或 数据 来 进行 迁移 学 习 在 深度 学 习 中 
也 十 分 常见 。 例 如 ， 对 于 大 部 分 图 像 分 类 任务 ， 并 不 需要 从 头 开始 训 
练 模型 ， 而 是 借用 一 个 在 大 规模 数据 集 上 预 训练 好 的 通用 模型 ， 并 在 
针对 目标 任务 的 小 数据 集 上 进行 微调 (Fine-tune) ， 这 种 微调 操作 就 
可 以 看 成 是 一 种 简单 的 迁移 学 习 。 


第 2 章 ”模型 评估 


“没有 测量 ， 束 没有 科学 。” 这 是 科学 家 | ] 捷 列 夫 的 名 言 。 在 计算 
机 科学 特别 是 机 絮 学 习 领 域 中 ， 对 模型 的 评估 同样 至 天 重要 。 只 有 选 
择 与 问题 相 匹 配 的 评估 方法 ， 才 能 快速 地 发 现 模 型 选择 或 训练 过 程 中 
出 现 的 问题 ， 送 代 地 对 模型 进行 优化 。 模 型 评估 主要 分 为 离线 评估 和 
在 线 评估 两 个 阶段 。 针 对 分 类 、 排 序 、 回 归 、 序 列 预测 等 不 同类 型 的 
机 器 学 习 问 题 ， 评 佑 指标 的 选择 也 有 所 不 同 。 知 道 每 种 评估 指标 的 精 
确定 义 、 有 针对 性 地 选择 合适 的 评估 指标 、 根 据 评估 指标 的 反馈 进行 
模型 调整 ， 这 些 都 症 机 器 学 习 在 模型 评估 阶段 的 关键 问题 ， 也 是 一 名 
合格 的 算法 工程 师 应 当 具 备 的 基本 功 。 


01 评估 指标 的 局 限 性 


场景 描述 


在 模型 评估 过 程 中 ， 分 类 问题 、 排 序 问题 、 回 归 问 题 往往 需要 使 
用 不 同 的 指标 进行 评估 。 在 诸多 的 评估 指标 中 ， 大 部 分 指标 只 能 片面 
地 反映 模型 的 一 部 分 性 能 。 如 果 不 能 合理 地 运用 评估 指标 ， 不 仅 不 能 
发 现 模型 本 身 的 问题 ， 而 且 会 得 出 错误 的 结论 。 下 面 以 Hulu 的 业务 为 
背景 ， 假 想 几 个 模型 评估 场景 ， 看 看 大 家 能 否 触 类 旁 通 ， 发 现 模型 评 
估 指 标的 局 限 性 。 


知识 点 


准确 率 (Accuracy) ， 精 确 率 (Precision) , AEX (Recall) , 
均 方 根 误差 (Root Mean Square Error, RMSE) 


问题 1 准确 率 的 局 限 性 。 


难度 : Herero 


Huuh mo) aE fe SE EERIE E oA ° Hulu 
通过 第 三 方 的 数据 管理 平台 (Data Management Platform, DMP) 拿 到 
了 一 部 分 睹 侈 品 用 户 的 数据 ， 并 以 此 为 训练 集 和 测试 集 ， 训 练 和 测试 
垄 侈 品 用 户 的 分 类 模型 。 该 模型 的 分 类 准确 率 超 过 了 95%， 但 在 实际 
BRR, BARA EIA a) BIA TIES MAR, A 
可 能 是 什么 原因 造成 的 ? 


分 析 与 解答 


在 解答 该 问题 之 前 ， 我 们 先 回顾 一 下 分 类 准确 率 的 定义 。 准 确 率 
征 指 分 类 正确 的 样本 占 总 样本 个 数 的 比例 ， 即 


Mecorrect 


Miotal ; 


Accuracy = 


(2.1) 
其 中 nec 为 被 正确 分 类 的 样本 个 数 ，niii 为 总 样本 的 个 数 。 


准确 率 十 分 类 问题 中 最 简单 也 是 最 直观 的 评价 指标 ， 但 存在 明显 
的 缺陷 。 比 如 ， 当 人 负 样 本 占 99% 时 ， 分 类 器 把 所 有 样本 都 预测 为 负 样 
本 也 可 以 获得 99% 的 准确 率 。 所 以 ， 当 不 同类 别 的 样本 比例 非常 不 均 
衡 时 ， 占 比 大 的 类 别 往往 成 为 影响 准确 率 的 最 主要 因素 。 


明确 了 这 一 点 ， 这 个 问题 也 就 迎 为 而 解 了 。 显 然 ， 奢 侈 品 用 尸 只 
占 Hulu 全 体 用 户 的 一 小 部 分 ， 虽然 模 型 的 整体 分 类 准确 率 高 ， 但 是 不 
代表 对 姥 侈 品 用 户 的 分 类 准确 率 也 很 高 。 在 线 上 投放 过 程 中 ， 我 们 只 
会 对 模型 判定 的 “奢侈 品 用 户 ” 进 行 投放 ， 因 此 ， 对 “ 守 侈 品 用 户 ” 判 定 
的 准确 率 不 够 高 的 问题 束 补 及 大 了 。 为 了 解决 这 个 问题 ， 可 以 使 用 更 
为 有 效 的 平均 准确 率 (每 个 类 别 下 的 样本 准确 率 的 算术 平均 ， 作 为 模 
型 评估 的 指标 。 


事实 上 ， 这 古 一 道 比较 开放 的 问题 ， 面 试 者 可 以 根据 过 到 的 问题 
一 步 步 地 排查 原因 。 标 准 答案 其 实 也 不 限于 指标 的 选择 ， 即 使 评估 指 
标 选 择 对 了 ， 仍 会 存在 模型 过 拟 合 或 欠 拟 合 、 测 试 集 和 训练 集 划 分 不 
合理 、 线 下 评估 与 线 上 测试 的 样本 分 布 存在 差异 等 一 系列 问题 ， 但 评 
佑 指标 的 选择 是 最 容易 侦 发 现 ， 也 是 最 可 能 影响 评估 结 来 的 因素 。 


问题 2 精确 率 与 召回 率 的 权衡 。 


难度 : Here 


Hulu 提 供 视 频 的 模糊 搜索 功能 ， 搜 索 排序 模型 返回 的 Top 5 的 精确 
率 非 党 高 ， 但 在 实际 使 用 过 程 中 ， 用 户 还 是 经 芝 找 不 到 想 要 的 视频 ， 
特别 是 一 些 比较 冷门 的 剧 集 ， 这 可 能 是 哪个 环 下 出 了 问题 呢 ? 


分 析 与 解答 


要 回答 这 个 问题 ， 首 和 完 要 明确 两 个 概念 ， 精 确 率 和 召回 率 。 精 确 
率 是 指 分 类 正确 的 正 样本 个 数据 分 类 需 判 定 为 正 样本 的 样本 个 数 的 比 
例 。 人 召回 率 征 指 分 类 正确 的 正 样本 个 数 占 真 正 的 正 样 本 个 数 的 比例 。 


在 排序 问题 中 ， 通 常 没有 一 个 确定 的 靖 值 把 得 到 的 结果 直接 判定 
为 正 样 本 或 负 样 本 ， 而 是 采用 Top N 返 回 结果 的 Precision 值 和 Recall 值 
来 衡量 排序 模型 的 性 能 ， 即 认为 模型 返回 的 Top N 的 结果 驶 是 模型 判定 
的 正 样 本 ， 然 后 计算 前 N 个 位 置 上 的 准确 率 Precision@N 和 前 N 个 位 置 
上 的 召回 率 Recall@N 。 


Precision 值 和 Recall 值 是 既 矛 盾 又 统一 的 两 个 指标 ， 为 了 提高 
Precision 值 ， 分 类 器 需要 尽量 在 “更 有 把 握 ” 时 才 把 样本 预测 为 正 样 
本 ， 但 此 时 往往 会 因为 过 于 保守 而 漏 掉 很 多 “没有 把 握 ” 的 正 样 本 ， 导 
致 Recall 值 降低 。 


回 到 问题 中 来 ， 模 型 返回 的 Precision@5 的 结果 非常 好 ， 也 束 是 说 
排序 模型 Top 5 的 返回 值 的 质量 是 很 高 的 。 但 在 实际 应 用 过 程 中 ， 用 户 
为 了 找 一 些 冷门 的 视频 ， 往 往 会 寻找 排 在 较 靠 后 位 置 的 结果 ， 其 至 翻 
页 去 查找 目标 视频 。 但 根据 题目 描述 ， 用 户 经 常 找 不 到 想 要 的 视频 ， 
这 说 明 模 型 没有 把 相关 的 视频 都 找 出 来 呈现 给 用 户 。 显 然 ， 问 题 出 在 
召回 率 上 。 如 果 相 关 结 果 有 100 个 ， 即 使 Precision@5 达 到 了 100%， 
Recall@O5 也 仅仅 是 5%。 在 模型 评估 时 ， 我 们 是 否 应 该 同时 关注 
Precision 值 和 Recall 值 ? 进一步 而 言 ， 是 否 应 该 选取 不 同 的 Top N 的 结 
果 进 行 观 察 呢 ? 是 否 应 该 选取 更 高 阶 的 评估 指标 来 更 全 面 地 反映 模型 
在 Precision 值 和 Recall 值 两 方面 的 表现 ? 


答案 都 是 肯定 的 ， 为 了 综合 评估 一 个 排序 模型 的 好 十， 不仅 要 看 
模型 在 不 同 Top N 下 的 Precision@N 和 Recall@N， 而 且 最 好 绘制 出 模型 


的 P-R (Precision-Recall) 曲线 。 这 里 简单 介绍 一 下 P-R 曲 线 的 绘制 方 
法 。 


P-R 曲 线 的 横 轴 是 召回 率 ， 纵 轴 是 精确 率 。 对 于 一 个 排序 模型 来 
说 ， 其 P-R 曲 线 上 的 一 个 点 代表 着 ， 在 某 一 冰 值 下 ， 模 型 将 大 于 该 阔 
值 的 结果 判定 为 正 样 本 ， 小 于 该 病 值 的 结果 判定 为 负 样 本 ， 此 时 返回 
结果 对 应 的 召回 率 和 精确 率 。 整 条 P-R 曲 线 是 通过 将 靖 值 从 高 到 低 移 
动 而 生成 的 。 图 2.1 是 P-R 曲 线 样 例 图 ， 其 中 实 线 代表 模型 A 的 P-R 曲 
线 ， 虚 线 代 表 模 型 B 的 P-R 曲 线 。 原 点 附近 代表 当 靖 值 最 大 时 模型 的 精 
确 率 和 召回 率 。 


图 2.1 P-R 曲 线 样 例 图 


由 图 可 见 ， 当 召回 率 接 近 于 0 时 ， 模 型 A 的 精确 率 为 0.9， 模 型 B 的 
精确 率 征 1， 这 说 明 模 型 B 得 分 前 几 位 的 样本 全 部 是 真正 的 正 样 本 ， 而 
模型 A 即使 得 分 最 高 的 儿 个 样本 也 存在 预测 错误 的 情况 。 并 且 ， 随 着 
召回 率 的 增加 ， 精 确 率 整 体 呈 下 降 趋 势 。 但 是 ， 当 召回 率 为 1 时 ， 模 型 
A 的 精确 率 反 而 超过 了 模型 B。 这 充分 说 明 ， 只 用 茶 个 点 对 应 的 精确 率 
和 召回 率 是 不 能 全 面 地 衡量 模型 的 性 能 ， 只 有 通过 P-R 曲 线 的 整体 表 
现 ， 才 能 够 对 模型 进行 更 为 全 面 的 评 佑 。 


除 此 之 外 ，F1 score 和 ROC 曲 线 也 能 综合 地 反映 一 个 排序 模型 的 性 
能 。F1 score 是 精准 率 和 召回 率 的 调和 平均 值 ， 它 定义 为 
_ 2 x precisionx recall 


Fl 
precision + recall 


ROC 曲 线 会 在 后 面 的 小 节 中 单独 讨论 ， 这 里 不 再 资 述 。 


问题 3 ”平方根 误差 的 < 意外 ”。 


MEE: Here 


Hulu 作 为 一 家 流 媒 体 公 司 ， 拥 有 众多 的 美剧 资源 ， 预 测 每 部 美剧 
的 流量 趋势 对 于 广告 投放 、 用 户 增长 都 非常 重要 。 我 们 希望 构建 一 个 
回归 模型 来 预测 某 部 美剧 的 流量 趋势 ， 但 无 论 采 用 哪 种 回归 模型 ， 得 
到 的 RMSE 指 标 都 非常 高 。 然 而 事实 是 ， 模 型 在 95% 的 时 间 区 间 内 的 
预测 误差 都 小 于 1%， 取 得 了 相当 不 错 的 预测 结 宁 。 那 么 ， 造 成 RMSE 
指标 居 高 不 下 的 最 可 能 的 原因 十 什么 ? 


分 析 与 解答 


RMSE 经 党 被 用 来 衡量 回归 模型 的 好 坏 ， 但 按照 题目 的 叙述 ， 
RMSE 这 个 指标 却 失效 了 。 移 看 一 下 RMSE 的 计算 公式 为 


EF, ye Ri MER SRS, We RISA SIE, ne PEAR 
点 的 个 数 。 


一 般 情 况 下 ，RMSE 能 够 很 好 地 反映 回归 模型 预测 值 与 真实 值 的 
偏离 程度 。 但 在 实际 问题 中 ， 如 琳 存 在 个 别 偏离 程度 非常 大 的 离 群 态 
(Outlier) 时 ， 即 使 离 群 点 数量 非常 少 ， 也 会 让 RMSE 指 标 变 得 很 


FE o 


回 到 问题 中 来 ， 模 型 在 95% 的 时 间 区 则 内 的 预测 误差 都 小 于 1%， 
这 说 明 ， 在 大 部 分 时 间 区 间 内 ， 模 型 的 预测 效果 都 是 非常 优秀 的 。 然 
而 ，RMSE 却 一 直 很 差 ， 这 很 可 能 是 由 于 在 其 他 的 59% 时 间 区 间 内 存在 
非常 严重 的 离 群 点 。 事 实 上， 在 流量 预 估 这 个 问题 中 ， 噪 声 点 确实 是 
很 容易 产生 的 ， 比 如 流量 特别 小 的 美剧 、 刚 上 映 的 美剧 或 者 刚 获奖 的 
a ee ree 


针对 这 个 问题 ， 有 什么 解决 方案 呢 ? 可 以 从 三 个 角度 来 思考 。 第 
一 ， 如 果 我 们 认定 这 些 离 群 点 是 “噪声 点 ”的 话 ， 就 需要 在 数据 预 处 理 
的 阶段 把 这 些 噪声 点 过 滤 掉 。 第 二 ， 如 果 不 认 为 这 些 离 群 点 是 “噪声 
上 点” 的话， 就 需要 进一步 提高 模型 的 预测 能 力 ， 将 离 群 点 产生 的 机 制 建 
REE (这 是 一 个 宏大 的 话题 ， 这 里 就 不 展开 讨论 了 ) 。 第 三 ， 可 以 
找 一 个 更 合适 的 指标 来 评估 该 模型 。 关 于 评估 指标 ， 其 实 是 存在 比 
RMSE 的 鲁 棒 性 更 好 的 指标 ， 比 如 平均 绝对 百分比 误差 (Mean 
Absolute Percent Error, MAPE) ， 它 定义 为 


100 
x 一 一 


MAPE = s5 
i=1 n 
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(2.4) 


相 比 RMSE，MAPE 相 当 于 把 每 个 点 的 误差 进行 了 归 一 化 ， 降 低 了 个 别 
离 群 点 带 来 的 绝对 误差 的 影响 。 


ATT Be 


本 小 节 基 于 三 个 假想 的 Hulu 应 用 场景 和 对 应 的 问题 ， 说 明了 选择 
合适 的 评估 指标 的 重要 性 。 每 个 评估 指标 都 有 其 价值 ， 但 如 果 只 从 单 
一 的 评估 指标 出 发 去 评 佑 模型， 往往 会 得 出 片面 甚至 错误 的 结论 ; 只 
有 通过 一 组 互补 的 指标 去 评估 模型 ， 才 能 更 好 地 发 现 并 解决 模型 存在 
的 问题 ， 从 而 更 好 地 解决 实际 业务 场景 中 遇 到 的 问题 。 


02 ROCHE 


场景 描述 


二 值 分 类 器 (Binary Classifier) 是 机 器 学 习 领 域 中 最 常见 也 是 应 
用 最 广泛 的 分 类 器 。 评 价 二 值 分 类 恬 的 指标 很 多 ， 比 如 precision ` 
recall ` F1 score、 了 P-R 曲 线 等 。 上 一 小 和 已 对 这 些 指标 做 了 一 定 的 介 
绍 ， 但 也 发 现 这 些 指标 或 多 或 少 只 能 反映 模型 在 某 一 方面 的 性 能 。 相 
比 而 言 ，ROC 曲 线 则 有 很 多 优点 ， 经 常 作 为 评估 二 值 分 类 名 最 重要 的 
指标 之 一 。 下 面 我 们 来 详细 了 解 一 下 ROC 曲 线 的 绘制 方法 和 特点 。 


ROC 曲 线 ， 曲 线 下 的 面积 (Aera Under Curve, AUC) ，P-R 曲 线 


问题 1 什么 是 ROC 曲线 ? 


难度 : Here 


分 析 与 解答 


ROC 曲 线 是 Receiver Operating Characteristic Curve 的 人 简称， 中 文 名 
为 " 受 试 者 工作 特征 曲线 ”。ROC 曲 线 源 于 军事 领域 ， 而 后 在 医学 领域 
应 用 甚 广 ,“ 受 试 者 工作 特征 曲线 ”这 一 名 称 也 正 是 来 和 目 于 医学 领域 。 


ROC 曲 线 的 横 坐 标 为 假 阳性 率 (False Positive Rate, FPR) ; 纵 坐 
标 为 真 阳 性 率 (True Positive Rate, TPR) 。FPR 和 TPR 的 计算 方法 分 


(2.6) 


上 式 中 ，P 是 真实 的 正 样本 的 数量 ，N 是 真实 的 负 样 本 的 数量 ，TP 是 P 
个 正 样 本 中 被 分 类 需 预 测 为 正 样本 的 个 数 ，FP 十 N 个 负 样 本 中 被 分 类 
妖 预 测 为 正 样本 的 个 数 。 


只 看 定义 确实 有 点 绕 ， 为 了 更 直观 地 说 明 这 个 问题 ， 我 们 举 一 个 
医院 诊断 病人 的 例子 。 假 设 有 10 位 疑似 癌症 患者 ， 其 中 有 3 位 很 不 委 确 
SERB SERIE (P=3) ， 另 外 7 位 不 是 癌症 患者 (N=7) 。 医 院 对 这 10 位 
疑似 患者 做 了 诊断 ， 诊 断 出 3 位 癌症 患者 ， 其 中 有 2 位 确实 是 真正 的 患 
者 (TP=2) 。 那 么 真 阳 性 率 TPR=TP/P=2/3。 对 于 7 位 非 癌 症 患 者 来 
说 ， 有 一 位 很 不 焉 被 误诊 为 癌症 患者 (FP=1) ， 那 么 假 阳 性 率 
FPR=FP/N=1/7。 对 于 “该 医院 ”这 个 分 类 器 来 说 ， 这 组 分 类 结果 就 对 应 
ROC 曲 线 上 的 一 个 点 (1/7, 2/3) ° 


问题 如 何 绘 制 ROC 曲线 ? 


难度 : teks 


分 析 与 解答 


事实 上 ，ROC 曲 线 是 通过 不 断 移 动 分 类 闫 的 “截断 点 ”来 生成 曲线 
上 的 一 组 天 键 点 的 ， 通 过 下 面 的 例子 进一步 来 解释 “截断 点 ”的 概念 。 


在 二 值 分 类 问题 中 ， 模 型 的 输出 一 般 都 是 预测 样本 为 正 例 的 概 
率 。 假 设 测试 集中 有 20 个 样本 ， 表 2.1 是 模型 的 输出 结果 。 样 本 按照 预 
测 概率 从 高 到 低 排序 。 在 输出 最 终 的 正 例 、 负 例 之 前 ， 我 们 需要 指定 
一 个 国 值 ， 预 测 概率 大 于 该 国 值 的 样本 会 被 判 为 正 例 ， 小 于 该 国 值 的 
样本 则 会 被 判 为 负 例 。 比 如 ， 指 定 病 值 为 0.9， 那 么 只 有 第 一 个 样本 会 
被 预测 为 正 例 ， 其 他 全 部 都 是 负 例 。 上 面 所 说 的 “截断 上 后 ” 指 的 就 古 区 
分 正 负 预测 结果 的 贱 值 。 

通过 动态 地 调整 截断 点 ， 从 最 高 的 得 分 开始 (实际 上 是 从 正 无 穷 
开始 ， 对 应 着 ROC 曲 线 的 零点 ) ， 逐 渐 调 整 到 最 低 得 分 ， 每 一 个 截断 
点 都 会 对 应 一 个 FPR 和 TPR， 在 ROC 图 上 绘制 出 每 个 截断 点 对 应 的 位 
置 ， 再 连接 所 有 点 束 得 到 最 终 的 ROC 曲 线 。 


表 2.1 二 值 分 类 模型 的 输出 结果 样 例 


就 本 例 来 说 ， 当 截断 点 选择 为 正 无 穷 时 ， 模 型 把 全 部 样本 预测 为 
负 例 ， 那 么 FP 和 TP 必 然 都 为 0，FPR 和 TPR 也 都 为 0， 因 此 曲线 的 第 一 
个 点 的 坐标 就 是 〈0,0) 。 当 把 截断 点 调整 为 0.9 时 ， 模 型 预测 1 号 样本 
为 正 样本 ， 并 且 该 样本 确实 是 正 样本 ， 因 此 ，TP=1，20 个 样本 中 ， 所 
有 正 例 数量 为 P=10， 故 TPR=TP/P=1/10; 这 里 没有 预测 错 的 正 样 本 ， 
即 FP=0， 负 样本 总 数 N=10， 故 FPR=FP/N=0/10=0， 对 应 ROC 曲 线 上 
的 点 (0,0.1) 。 依 次 调整 截断 点 ， 直 到 画 出 全 部 的 关键 点 ， 再 连接 关 
键 点 即 得 到 最 终 的 ROC 曲 线 ， 如 图 2.2 所 示 。 
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图 2.2 ROC 曲线 


其 实 ， 还 有 一 种 更 直观 地 绘制 ROC 曲 线 的 方法 。 首 先 ， 根 据 样本 
标签 统计 出 正 负 样 本 的 数量 ， 假 设 正 样本 数量 为 P， 负 样本 数量 为 N; 
接 下 来 ， 把 横 轴 的 刻度 间隔 设置 为 VN， 纵 轴 的 刻度 间隔 设置 为 VP; 
再 根据 模型 输出 的 预测 概率 对 样本 进行 排序 (从 高 到 低 ) ; 依次 遍历 
样本 ， 同 时 从 零点 开始 绘制 ROC 曲 线 ， 每 遇 到 一 个 正 样 本 就 沿 纵 轴 方 
癌 绘制 一 个 刻度 间隔 的 曲线 ， 每 遇 到 一 个 负 样 本 就 沿 横 轴 方 向 绘制 一 
个 刻度 间隔 的 曲线 ， 直 到 遍历 完 所 有 样本 ， 曲 线 最 终 停 在 (1,1) 这 个 
点 ， 整 个 ROC 曲 线 绘制 完成 。 


问题 3 ”如何 计 算 AUC9? 


MEE: kN 


分 析 与 解答 


顾名思义 ，AUC 指 的 是 ROC 曲 线 下 的 面积 大 小 ， 该 值 能 够 量化 地 
反映 基于 ROC 曲 线 衡量 出 的 模型 性 能 。 计 算 AUC 值 只 需要 沿 着 ROC 横 
轴 做 积分 就 可 以 了 。 由 于 ROC 曲 线 一 般 都 处 于 y=x 这 条 直线 的 上 方 (如 
果 不 是 的 话 ， 只 要 把 模型 预测 的 概率 反 转 成 1-p 就 可 以 得 到 一 个 更 好 
的 分 类 器 ) ， 所 以 AUC 的 取 值 一 般 在 0.5 一 1 之 间 。AUC 越 大 ， 说 明 分 
类 器 越 可 能 把 真正 的 正 样 本 排 在 前 面 ， 分 类 性 能 越 好 。 


问题 4 ” ROC 曲线 相 比 P-R 曲 线 有 什么 特点 ? 


难度 : kkk 


分 析 与 解答 


本 章 第 一 小 节 曾 介绍 过 同样 被 经 常用 来 评估 分 类 和 排序 模型 的 P- 
R 曲 线 。 相 比 P-R 曲 线 ，ROC 曲 线 有 一 个 特点 ， 当 正 负 样本 的 分 布 发 生 
变化 时 ，ROC 曲 线 的 形状 能 够 基本 保持 不 变 ， 而 P-R 曲 线 的 形状 一 般 
会 发 生 较 剧烈 的 变化 。 


举例 来 说 ， 图 2.3 是 ROC 曲 线 和 P-R 曲 线 的 对 比 图 ， 其 中 图 2.3 
(a) 和 图 2.3 (c) 是 ROC 曲 线 ， 图 2.3 (b) 和 图 2.3 (d) 是 P-R 曲 线 ， 
图 2.3 (c) 和 图 2.3 (d) 则 是 将 测试 集中 的 负 样 本 数量 增加 10 倍 后 的 曲 
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(a) ROC 曲线 对 比 图 (b) P-R 曲线 对 比 图 
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(c) 负 样 本 增加 10 倍 后 的 ROC 曲线 对 比 图 (d) 负 样 本 增加 10 倍 后 的 P-R 曲线 对 比 图 


图 2.3 ROC 曲线 和 P-R 曲 线 的 对 比 


可 以 看 出 ，P-R 曲 线 发 生 了 明显 的 变化 ， 而 ROC 曲 线形 状 基 本 不 
变 。 这 个 特点 让 ROC 曲 线 能 够 尽量 降低 不 同 测试 集 带 来 的 干扰 ， 更 加 
客观 地 衡量 模型 本 身 的 性 能 。 这 有 什么 实际 意义 呢 ? 在 很 多 实际 问题 
中 ， 正 负 样 本 数量 往往 很 不 均衡 。 比 如 ， 计 算 广告 领域 经 常 涉及 转化 
率 模 型 ， 正 样本 的 数量 往往 是 负 样 本 数量 的 /1000 其 至 1/10000。 寿 选 
择 不 同 的 测试 集 ，P-R 曲 线 的 变化 就 会 非常 大 ， 而 ROC 曲 线 则 能 够 更 
加 稳定 地 反映 模型 本 身 的 好 坏 。 所 以 ，ROC 曲 线 的 适用 场景 更 多 ， 被 
广泛 用 于 排序 、 推 荐 、 广 告 等 领域 。 但 需要 注意 的 是 ， 选 择 P-R 曲 线 
还 是 ROC 曲 线 是 因 实 际 问 题 而 异 的 ， 如 果 研 究 者 希望 更 多 地 看 到 模型 
在 特定 数据 集 上 的 表现 ，P-R 曲 线 则 能 够 更 直观 地 反映 其 性 能 。 


ROC 曲线 的 由 来 


ROC 曲 线 最 早 是 运用 在 军事 上 的 ， 后 来 逐渐 运用 到 医学 领域 ， 并 于 20 世 纪 80 年 代 
后 期 被 引入 机 器 学 习 领域 。 相 传 在 第 二 次 世界 大 战 期 间 ， 雷 达 兵 的 任务 之 一 就 是 死 死 地 
采 住 雷达 显示 器 ， 观 察 是否 有 敌 机 来 袭 。 理 论 上 讲 ， 只 要 有 敌 机 来 歼 ， 雷 达 屏 幕 上 就 会 
出 现 相 应 的 信号 。 但 是 实际 上 ， 如 果 飞 乌 出 现在 雷达 扫描 区 域 时 ， 雷 达 屏 幕 上 有 时 也 会 
出 现 信 号 。 这 种 情况 令 雷达 兵 烦 恼 不 已 ， 如 果 过 于 谨慎 ， 凡 是 有 信号 就 确定 为 敌 机 来 
黎 ， 显 然 会 增加 误 报 风 险 ， 如 果 过 于 大 胆 ， 凡 是 信号 都 认为 是 飞鸟， 又 会 增加 漏 报 的 风 
念 。 每 个 雷达 兵 都 竭尽 所 能 地 研究 飞鸟 信号 和 飞机 信号 之 间 的 区 别 ， 以 便 增 加 预报 的 准 
确 性 。 但 问题 在 于 ， 每 个 雷达 兵 都 有 自己 的 判别 标准 ， 有 的 雷达 兵 比较 谍 慎 ， 容 易 出 现 
误 报 ， 有 的 雷达 兵 则 比较 胆 大 ， 容 易 出 现 漏 报 。 


为 了 研究 每 个 雷达 兵 预 报 的 准确 性 ， 雷 达 兵 的 管理 者 汇总 了 所 有 雷达 兵 的 预报 特 
特别 是 他 们 漏 报 和 误 报 的 概率 ， 并 将 这 些 概 率 画 到 一 个 二 维 坐 标 系 里 。 这 个 二 维 坐 
E E E E a 
的 概率 。 而 横 坐 标 则 为 1- 特 异性 〈 假 阳性 率 ) , KREMA ARAL SH, MAR 
项 报错 误 的 概率 。 由 于 每 个 雷达 兵 的 预报 标准 不 同 ， 且 得 到 的 敏感 性 和 特异 性 的 组 合 也 
不 同 。 将 这 些 雷 达 兵 的 预报 性 能 进行 汇总 后 ， 雷 达 兵 管理 员 发 现 他 们 刚好 在 一 条 曲线 
上 ， 这 条 曲线 就 是 后 来 被 广泛 应 用 在 医疗 和 机 器 学 习 领域 的 ROC 曲 线 。 


UT 


03 ”余弦 距离 的 应 用 


场景 描述 


本 章 的 主题 是 模型 评 佑 ， 但 其 实在 模型 训练 过 程 中 ， 我 们 也 在 不 
断 地 评估 痢 样 本 间 的 距离 ， 如 何 评估 样本 距离 也 是 定义 优化 目标 和 训 
练 方法 的 基础 。 


在 机 器 学 习 问 题 中 ， 通 常 将 特征 表示 为 向 量 的 形式 ， 所 以 在 分 析 
两 个 特征 癌 量 之 间 的 相似 性 时 ， 和 党 使 用 余弦 相似 度 来 表示 。 余 弦 相 似 
度 的 取 值 范围 是 [-11]， 相 同 的 两 个 回 量 之 间 的 相似 度 为 1。 如 采 和 希望 
得 到 类 似 于 距离 的 表示 ， 将 1 减 去 余弦 相似 度 即 为 余弦 距离 。 因 此 ， 余 
弦 距 离 的 取 值 范围 为 [0,2]， 相 同 的 两 个 癌 量 余弦 距离 为 0 。 


知识 ， yw 
余弦 相似 度 ， 余 弦 距 离 ， 欧 氏 距 离 ， 距 离 的 定义 


问题 1 ”结合 你 的 学 习 和 研究 经 历 ， 探 讨 为 什么 在 一 些 场 
景 中 要 使 用 余弦 相似 度 而 不 是 欧 氏 距离 ? 


MERE: teks 


分 析 与 解答 


cos(A, B) = a 

对 于 两 个 向 量 A 和 B， 其 余弦 相似 度 定 义 为 |4lzllBlla， 
即 两 个 向 量 夹 角 的 余弦 ， 关 注 的 是 向 量 之 间 的 角度 关系 ， 并 不 关心 它 
们 的 绝对 大 小 ， 其 取 值 范围 症 [-1,1]。 当 一 对 文本 相似 度 的 长 度 差距 很 
大 、 但 内 容 相近 时 ， 如 果 使 用 词 频 或 词 癌 量 作 为 特征 ， 它 们 在 特征 至 
间 中 的 的 欧 氏 距离 通常 很 大 ;而 如 果 使 用 余弦 相似 度 的 话 ， 它 们 之 间 
的 夹 角 可 能 很 小 ， 因 而 相似 度 高 。 此 外 ， 在 文本 、 图 人像、 视频 等 领 
域 ， 人 研究 的 对 象 的 特征 维度 往往 很 高 ， 余 弦 相 似 度 在 高 维 情况 下 依然 
你 持 “ 相 同时 为 1， 正 交 时 为 0， 相 反 时 为 -1” 的 性 质 ， 而 欧 氏 距离 的 数 
值 则 受 维度 的 影响 ， 范 围 不 固定 ， 并 且 伟 义 也 比较 模糊 。 


在 一 些 场 景 ， 例 如 Word2Vec 中 ， 其 向 量 的 模 长 是 经 过 归 一 化 的 ， 
此 时 欧 氏 距离 与 余弦 距离 有 着 单 调 的 关系 ， 即 


|| A-B |l = V2(1 -cos(4A, B)) 


(2.7) 


其 中 || A-B jp 表示 欧 氏 距离 ，cos(A,B) 表 示 余 弦 相 似 度 ，(1-cos(A,B)) 表 
示 余 弦 距 离 。 在 此 场景 下 ， 如 果 选 择 距 离 最 小 (相似 度 最 大 ) 的 近 
邻 ， 那 么 使 用 余弦 相似 度 和 欧 氏 距离 的 结果 是 相同 的 。 


总 体 来 说 ， 欧 氏 距 离 体 现 数值 上 的 绝对 差异 ， 而 余弦 距离 体现 方 
回 上 的 相对 差异 。 例 如 ， 统 计 两 部 剧 的 用 户 观看 行为 ， 用 户 A 的 观看 
向 量 为 (0,1)， 用 户 B 为 (10); 此 时 二 者 的 余弦 距离 很 大 ， 而 欧 氏 距离 很 
小 ;我们 分 析 两 个 用 户 对 于 不 同 视频 的 偏好 ， 更 关注 相对 差异 ， 显 然 
应 当 使 用 余弦 距离 。 而 当 我 们 分 析 用 户 活跃 度 ， 以 登陆 次 数 ( 单 位 : 
次 ) 和 平均 观看 时 长 (单位 :分 钟 ) 作 为 特征 时 ， 余 弦 距 离 会 认为 (1,10)、 
(10,100) 两 个 用 户 距离 很 近 ， 但 显然 这 两 个 用 户 活跃 度 是 有 着 极 大 差异 
的 ， 此 时 我 们 更 关注 数值 绝对 差异 ， 应 当 使 用 欧 氏 距离 。 


特定 的 度量 方法 适用 于 什么 样 的 问题 ， 需 要 在 学 习 和 人 研究 中 多 总 
结 和 思考 ， 这 样 不 仅仅 对 面试 有 帮助 ， 在 遇 到 新 的 问题 时 也 可 以 活 学 
活用 。 


问题 2 ”余弦 距离 是 否 是 一 个 严格 定义 的 距离 ? 


TREE: etek vic sk 
分 析 与 解答 


该 题 主 要 考察 面试 者 对 距离 的 定义 的 理解 ， 以 及 位 单 的 反 证 和 推 
导 。 首 先 看 距离 的 定义 :在 一 个 集合 中 ， 如 果 每 一 对 元 素 均 可 唯一 确 
定 一 个 实数 ， 使 得 三 条 距离 公理 (正定 性 ， 对 称 性 ， 三 角 不 等 式 ) 成 
立 ， 则 该 实数 可 称 为 这 对 元 素 之 间 的 距离 。 


余弦 距离 满足 正定 性 和 对 称 性 ， 但 是 不 满足 三 角 不 等 式 ， 因 此 它 
并 不 是 严格 定义 的 距离 。 具 体 来 说 ， 对 于 辐 量 A 和 B， 三 条 距离 公理 的 
证 明 过 程 如 下 。 


。 正定 性 
根据 余弦 距离 的 定义 ， 有 
dist(A,B) =1-cos9 = lel Fk Æ 
[A lhll Bll 


考虑 到 12 一 4B3 >=0， 因 此 有 dist(4,B3) >0 恒 成 立 。 特 别 
地 ， 有 


dist(4, B)=0 || All| 2 |,= 48 S A=B. 


因此 余弦 距离 满足 正定 性 。 


。 对称 性 
根据 余弦 距离 的 定义 ， 有 
| Abl Bl -4B _ ILB Ikl All, -48 


| A llall Bil, I| B lll A ll, 
= dist(B, A). 


dist(A, B) = 


(2.10) 
因此 余弦 距离 满足 对 称 性 。 
。 二 角 不 等 式 


该 性 质 并 不 成 立 ， 下 面 给 出 一 个 反例 。 给 定 A=(1,0)，B=(1,1)，C= 
(0,1)， 则 有 


dist(A, B) =1 a 
(2.11) 
dist(B,C) =1 a 
(2.12) 
dist(A,C)=1 , 
(2.13) 
因此 有 
dist(A, B) + dist(B,C) = 2- V2 <1=dist(A,C). 
(2.14) 


假如 面试 时 候 紧 张 ， 一 时 想不到 反例 ， 该 怎么 办 呢 ? 此 时 可 以 思 
考 余弦 距离 和 欧 氏 距离 的 和 关系。 从 问题 1 中 ， 我 们 知道 单位 圆 上 欧 氏 距 
离 和 余弦 距离 满足 


|| 4—B||= (201 —cos(A, B)) = V2dist(4, B) 
(2.15) 
即 有 如 下 关系 
dist(4, B)=— || A-B ast 


(2.16) 


显然 在 单位 贺 上 ， 人 余弦 距离 和 欧 氏 距离 的 范围 都 是 [0,2]。 我们 已 知 欧 
氏 距 离 是 一 个 合法 的 距离 ， 而 余弦 距离 与 欧 氏 距离 有 二 次 关系 ， 上 自然 
不 满足 三 角 不 等 式 。 具 体 来 说 ， 可 以 假设 A 与 B、B 与 C 非 常 近 ， 其 欧 氏 
距离 为 极 小 量 u， 此 时 A、B、C 虽 然 在 圆 弧 上 ， 但 近似 在 一 条 直线 上 ， 
所 以 A 与 C 的 欧 氏 距离 接近 于 2u。 因 此 ，A 与 B、B 与 C 的 余弦 距离 为 
u2/2; A 与 C 的 余弦 距离 接近 于 2u， 大 于 A 与 B、B 与 C 的 余弦 距离 之 
和 。 


面试 者 在 碰 到 这 类 基础 证 明 类 的 问题 时 ， 往 往 会 过 到 一 些 困难 。 
比如 对 面试 官 考 察 的 重点 “距离 ”的 定义 束 不 一 定 清 晰 地 记得 。 这 个 时 
候 ， 束 需要 跟 面 试 官 多 沟通 ， 在 距离 的 定义 上 达成 一 臻 《要 知道 ， 面 
试 考察 的 不 仅 是 知识 的 掌握 程度 ， 还 有 面试 者 沟通 和 分 析 问 题 的 能 
力 ) 。 要 想 给 出 一 个 完美 的 解答 ， 就 需要 清晰 的 逻辑 、 严 齐 的 思维 。 
比如 在 正定 性 和 对 称 性 的 证 明 过 程 中 ， 只 十 给 出 含糊 的 表述 诸如 “显然 
满足 ”是 不 好 的 ， 应 该 给 出 一 些 推 导 。 最 后 ， 三 角 不 等 式 的 证 明 / 证 伪 
中 ， 不 应 表述 为 “我 觉得 满足 /不 满足 ”， 而 是 应 该 积极 分 析 给 定 三 个 点 
时 的 三 角 关 系 ， 或 者 推导 其 和 欧 氏 距离 的 关系 ， 这 样 哪怕 一 时 找 不 到 
As none tH EL i Fe NTE IE BOT LE AS RE 
ran 


笔者 首次 注意 到 余弦 距离 不 符合 三 角 不 等 式 是 在 研究 电视 剧 的 标 
签 时 ， 发 现在 通过 影视 语料库 训练 出 的 词 回 量 中 ，comedy 和 funny、 
funny 和 happy 的 余弦 距离 都 很 近 ， 小 于 0.3， 然 而 comedy 和 happy 的 余 
弦 距 离 却 高 达 0.7。 这 一 现象 明显 不 符合 距离 的 定义 ，3 引 起 了 我 们 的 注 
意 和 讨论 ， 经 过 思考 和 推导 ， 得 出 了 上 述 结 论 。 


在 机 器 学 习 领 域 ， 被 俗称 为 距离 ， 却 不 满足 三 条 距离 公理 的 不 仪 
仅 有 余弦 距离 ， 还 有 KL 距离 (Kullback-Leibler Divergence) ， 也 叫 作 
FEI 它 常 用 于 计算 两 个 分 布 之 间 的 差异 ， 但 不 满足 对 称 性 和 三 角 
不 等 式 。 


04 A/B 测 试 的 陷阱 


场景 描述 


在 互联 网 公司 中 ，A/B 测试 是 验证 新 模块 、 狐 功能 、 新 产品 是 否 
有 效 ， 新 算法 、 新 模型 的 效果 是 否 有 提升 ， 狐 设计 是 否 受 到 用 户 欢 
迎 ， 新 更 改 是 否 影响 用 户 体 难 的 主要 测试 方法 。 在 机 顺 学 习 领 域 中 ， 
A/B 测试 是 验证 模型 最 终 效 果 的 主要 手段 。 


知识 点 
A/B 测 试 ， 实 验 组 ， 对 照 组 


问题 1 在 对 模型 进行 过 充分 的 离线 评 佑 之后， 为 什么 还 
要 进行 在 线 A/B 测 试 ? 


IERE: AN 
分 析 与 解答 


需要 进行 在 线 A/B 测 试 的 原因 如 下 。 


(1) 离线 评估 无 法 完全 消除 模型 过 拟 合 的 影响 ， 因 此 ， 得 出 的 离 
线 评估 结果 无 法 完全 替代 线 上 评估 结果 。 


(2) 离线 评估 无 法 完全 还 原 线 上 的 工程 环境 。 一 般 来 讲 ， 离 线 评 
佑 往往 不 会 考虑 线 上 环境 的 延迟 、 数 据 丢 失 、 标 签 数据 缺失 等 情况 。 


因此 ， 离 线 评估 的 结 有 果 是 理想 工程 环境 下 的 结 


(3) 线 上 系统 的 某 些 商 业 指 标 在 离线 评估 中 无 法 计算 。 离 线 评估 
一 般 是 针对 模型 本 身 进行 评估 ， 而 与 模型 相关 的 其 他 指标 ， 等 别 征 商 
业 指 标 ， 往 往 无 法 直接 获得 。 比 如 ， 上 线 了 新 的 推荐 算法 ， 离 线 评 佑 
往往 关注 的 是 ROC 曲 线 、P-R 曲 线 等 的 改进 ， 而 线 上 评估 可 以 全 面 了 
解 该 推荐 算法 市 来 的 用 户 点 击 率 、 留 存 时 长 、PV 访 问 量 等 的 变化 。 这 
些 都 要 由 A/B 测 试 来 进行 全 面 的 评估 。 


问题 如 何 进行 线 上 A/B 测 试 ? 


MERE: Here 


分 析 与 解答 


进行 A/B 测 试 的 主要 手段 古 进行 用 户 分 桶 ， 有 即将 用 户 分 成 实验 组 
和 对 照 组 ， 对 实验 组 的 用 户 施 以 新 模型 ， 对 对 照 组 的 用 户 施 以 旧 模 
型 。 在 分 桶 的 过 程 中 ， 要 注意 样本 的 独立 性 和 采样 方式 的 无 偏 性 ， 确 
保 同 一 个 用 户 每 次 只 能 分 到 同一 个 桶 中 ， 在 分 桶 过 程 中 所 选取 的 
user_ id 需要 是 一 个 随机 数 ， 这 样 才能 保证 桶 中 的 样本 是 无 偏 的 。 


问题 3 如 何 划 分 实验 组 和 对 照 组 


MEE: teres 


H 公 司 的 算法 工程 师 们 最 近 针 对 系统 中 的 “美国 用 户 ? 研 发 了 一 套 
全 新 的 视频 推荐 模型 A， 而 目前 正在 使 用 的 针对 全 体 用 户 的 推荐 模型 
是 B。 在 正式 上 线 之 前 ， 工 程 师 们 布 望 通过 A/B 测 试 来 验证 新 推荐 模型 
的 效果 。 下 面 有 三 种 实验 组 和 对 照 组 的 划分 方法 ， 请 指出 哪 种 划分 方 
法 是 正确 的 ? 


(1) 根据 user_id (user id 完全 随机 生成 ) 个 位 数 的 奇偶 性 将 用 户 
划分 为 实验 组 和 对 照 组 ， 对 实验 组 施 以 推荐 模型 A， 对 照 组 施 以 推荐 
模型 B; 


(2) 将 user_id 个 位 数 为 奇数 且 为 美国 用 户 的 作为 实验 组 ， 其 余 用 
户 为 对 照 组 ; 


(3) 将 user_id 个 位 数 为 奇数 且 为 美国 用 户 的 作为 实验 组 ，user_id 
个 位 数 为 偶数 的 用 户 作为 对 照 组 。 


分 析 与 解答 


上 述 3 种 A/B 测 试 的 划分 方法 都 不 正确 。 我 们 用 包含 关系 图 来 说 明 

三 种 划分 方法 ， 如 图 2.4 所 示 。 方 法 1 ( 见 图 2.4 (a) ) 没有 区 分 是 否 为 

美国 用 户 ， 实 验 组 和 对 照 组 的 实验 结果 均 有 稀释 ， 方法 2 ( 见 图 2.4 

(b) ) 的 实验 组 选取 无 误 ， 并 将 其 余 所 有 用 户 划分 为 对 照 组 ， 导 致 对 

照 组 的 结果 被 稀释 ; 方法 3 ( 见 图 2.4 (c) ) 的 对 照 组 存在 偏差 。 正 确 

的 做 法 是 将 所 有 美国 用 户 根 据 user_id 个 位 数 划 分 为 试验 组 合 对 照 组 
( 见 图 2.4 (a) ) ， 分 别 施 以 模型 A 和 B， 才 能 够 验证 模型 A 的 效果 。 


实验 组 对 照 组 


(a) 散 列 空间 


实验 组 对 照 组 


(b) 被 稀 朴 的 划分 方案 
实验 组 对 照 组 


(c) 有 偏 的 划分 方案 


实验 组 对 照 组 


(d) 正确 、 无 偏 的 划分 方案 
图 2.4 ”A/B 测 试 中 的 划分 方法 黄色 为 实验 组 ， 棕 色 前 对 照 组 ) 


05 ”模型 评估 的 方法 


场景 描述 


在 机 器 学 习 中 ， 我 们 通常 把 样本 分 为 训练 集 和 测试 集 ， 训 练 集 用 
于 训练 模型 ， 测 试 集 用 于 评估 模型 。 在 样本 划分 和 模型 验证 的 过 程 
中 ， 存 在 着 不 同 的 抽样 方法 和 验证 方法 。 本 小 节 主 要 考察 面试 者 是 否 
eee ` 十 否 能 够 在 不 同 问题 中 挑选 合适 的 评 佑 方 
VF o 


知识 点 
Holdout 检 验 ， 交 叉 验 证 ， 上 自助 法 (Bootstrap) ， 微 积分 


问题 1 在 模型 评估 过 程 中 ， 有 哪些 主要 的 验证 方法 ， 它 
们 的 优 缺 点 是 什么 ? 


难度 : teks 


分 析 与 解答 


= Holdout 检 验 


Holdout 检 难 是 最 简单 也 是 最 直接 的 验证 方法 ， 它 将 原始 的 样本 集 
合 随 机 划分 成 训练 集 和 验证 集 两 部 分 。 比 方 说 ， 对 于 一 个 点 击 率 预 测 
模型 ， 我 们 把 样本 按照 709% 一 309% 的 比例 分 成 两 部 分 ，70% 的 样本 用 


于 模型 训练 ，30% 的 样本 用 于 模型 验证 ， 包 括 绘制 ROC 曲 线 、 计 算 精 
确 率 和 召回 率 等 指标 来 评估 模型 性 能 。 


Holdout 检验 的 缺点 很 明显 ， 即 在 验证 集 上 计算 出 来 的 最 后 评估 指 
标 与 原始 分 组 有 很 大 关系 。 为 了 消除 随机 性 ， 人 研 守 者 们 引入 了 “交叉 检 


验 ” 的 思想 
m 20 


k-fold 交 叉 验 证 : 首先 将 全 部 样本 划分 成 k 个 大 小 相等 的 样本 子 
R, 依次 明 历 这 个子 集 ， 每 次 把 当前 子 集 作 为 验证 集 ， 其 余 所 有 子 集 
作为 训练 集 ， 进 行 模 型 的 训练 和 评估 ;， 最 后 把 kK 次 评估 指标 的 平均 值 作 
为 最 终 的 评 佑 指标。 在 实际 实验 中 ，j 经 前 取 10。 


留 一 验证 ， 每 次 留 下 1 个 样本 作为 验证 集 ， 其 余 所 有 样本 作为 测试 
集 。 样 本 忌 数 为 "， 依 次 对 n 个 样本 进行 肖 历 ， 进 行 n 次 验证 ， 再 将 评 们 
指标 求 乎 均值 得 到 最 终 的 评估 指标 。 在 样本 总 数 较 多 的 情况 下 ， 留 一 
验证 法 的 时 间 开 销 极 大 。 事 实 上 ， 留 一 验证 是 留 p 验 证 的 特例 。 留 p 验 
证 是 每 次 留 下 p 个 样本 作为 验证 集 ， 而 从 n 个 元 素 中 选择 p 个 元 素 有 Cn 
种 可 能 ， 因 此 它 的 时 间 开 销 更 是 远 远 高 于 留 一 验证 ， 故 而 很 少 在 实际 
工程 中 被 应 用 。 


n 自助 法 


不 管 是 Holdout 检 验 还 是 交叉 检验 ， 都 是 基于 划分 训练 集 和 测试 集 
的 方法 进行 模型 评估 的 。 然 而 ， 当 样本 规模 比较 小 时 ， 将 样本 集 进 行 
划分 会 让 训练 集 进一步 减 小 ， 这 可 能 会 影响 模型 训练 效 末 。 有 没有 能 
维持 训练 集 样本 规模 的 验证 方法 呢 ? 自助 法 可 以 比较 好 地 解决 这 个 问 


题 。 


目 助 法 古 基 于 目 助 采 样 法 的 检验 方法 。 对 于 忌 数 为 n 的 样本 集合 ， 
进行 n 次 有 放 回 的 随机 抽样 ， 得 到 大 小 为 n 的 训练 集 。n 次 采样 过 程 中 ， 
有 的 样本 会 被 重复 采样 ， 有 的 样本 没有 被 抽出 过 ， 将 这 些 没有 被 抽出 
的 样本 作为 验证 集 ， 进 行 模型 验证 ， 这 就 是 自助 法 的 验证 过 程 。 


问题 2 在 目 助 法 的 采样 过 程 中 ， 对 n 个 样本 进行 n 次 自助 
0 最 终 有 多 少数 据 从 未 被 选择 


难度 ， 女 女友 六 广 
分 析 与 解答 


1 
一 个 样本 在 一 itt a n 次 抽样 
1 


均 未 抽 中 的 概率 为 \ r 。 当 n 趋 于 无 穷 大 时 ， gryt 


根据 重要 极限 ， te (3) es gut 


(2.17) 


因此 当 样 本 数 很 大 时 ， 大 约 有 36.8% 的 样本 从 未 被 选择 过 ， 可 作为 


难 证 集 mR ° 
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场景 描述 


对 于 很 多 算法 工程 师 来 说 ， 超 参数 调 优 是 件 非 党 头疼 的 事 。 除 了 
根据 经 验 设 定 所 谓 的 “合理 值 ? 之 外 ， 一 般 很 难 找到 合理 的 方法 去 寻找 
超 参数 的 最 优 取 值 。 而 与 此 同时 ， 超 参数 对 于 模型 效 采 的 影响 又 至 天 
重要 。 有 没有 一 些 可 行 的 办 法 去 进行 超 参数 的 调 优 呢 ? 


问题 超 参 数 有 哪些 调 优 方法 ? 


难度 : tek sek 


分 析 与 解答 


为 了 进行 超 参 数 调 优 ， 我 们 一 般 会 采用 网 格 搜索 、 随 机 搜索 、 贝 
叶 斯 优化 等 算法 。 在 具体 介绍 算法 之 前 ， 需 要 明确 超 参数 搜索 算法 一 
般 包 括 哪儿 个 要 素 。 一 是 目标 男 数 ， 即 算法 需要 最 大 化 /最 小 化 的 目 
标 ; 二 是 搜索 范围 ， 一 般 通 过 上 限 和 下 限 来 确定 ;三 是 算法 的 其 他 参 
数 ， 如 搜索 步 长 。 


m 网 格 搜索 


网 格 搜索 可 能 是 最 简单 、 应 用 最 广泛 的 超 参数 搜索 算法 ， 它 通过 
查找 搜索 范围 内 的 所 有 的 点 来 确定 最 优 值 。 如 有 果 采 用 较 大 的 搜索 范围 
以 及 较 小 的 步 长 ， 网 格 搜索 有 很 大 概率 找到 全 局 最 优 值 。 然 而 ， 这 种 
搜索 方案 十 分 消耗 计算 货源 和 时 间 ， 特 别 是 需要 调 优 的 超 参数 比较 多 
的 时 候 。 因 此 ， 在 实际 应 用 中 ， 网 格 搜索 法 一 般 会 先 使 用 较 广 的 搜索 
范围 和 较 大 的 步 长 ， 来 寻找 全 局 最 优 值 可 能 的 位 置 ， 然 后 会 逐渐 缩小 


搜索 范围 和 步 长 ， 来 寻找 更 精确 的 最 优 值 。 这 种 操作 方案 可 以 降低 所 
需 的 时 间 和 计算 量 ， 但 由 于 目标 函数 一 般 是 非 凸 的 ， 所 以 很 可 能 会 错 
过 全 局 最 优 值 。 


随机 搜索 


随机 搜索 的 思想 与 网 格 搜索 比较 相似 ， 只 十 不 再 测试 上 界 和 下 有 界 
之 间 的 所 有 值 ， 而 是 在 搜索 范围 中 随机 选取 样本 点 。 它 的 理论 依据 
征 ， 如 果 样 本 点 集 足 够 大 ， 那 么 通过 随机 采样 也 能 大 概率 地 找到 全 局 
最 优 值 ， 或 其 近似 值 。 随 机 搜索 一 般 会 比 网 格 搜 索要 快 一 些 ， 但 是 和 
网 格 搜 索 的 快速 版 一 样 ， 它 的 结果 也 是 没 法 保证 的 。 


e 贝 叶 斯 优化 算法 


贝 叶 斯 优化 算法 在 寻找 最 优 最 值 参 数 时 ， 采 用 了 与 网 格 搜 索 、 随 
机 搜索 完全 不 同 的 方法 。 网 格 搜索 和 随机 搜索 在 测试 一 个 新 点 时 ， 会 
忽略 前 一 个 总 的 信息 ;而 贝 叶 斯 优化 算法 则 充分 利用 了 之 前 的 信息 。 
贝 叶 斯 优化 算法 通过 对 目标 函数 形状 进行 学 习 ， 找 到 使 目标 函数 同 全 
局 最 优 值 提升 的 参数 。 具 体 来 说 ， 它 学 习 目 标 画 数 形状 的 方法 是 ， 首 
先 根 据 移 验 分 布 ， 假 设 一 个 搜集 函数 ， 然后， 每 一 次 使 用 新 的 采样 点 
来 测试 目标 函数 时 ， 利 用 这 个 信息 来 更 新 目标 函数 的 移 验 分 布 ; 最 
后 ， 算 法 测试 由 后 验 分 布 给 出 的 全 局 最 值 最 可 能 出 现 的 位 置 的 点 。 对 
于 贝 叶 斯 优化 算法 ， 有 一 个 需要 注意 的 地 方 ， 一 旦 找到 了 一 个 局 部 最 
优 值 ， 它 会 在 该 区 域 不 断 采 样 ， 所 以 很 容易 陷入 局 部 最 优 值 。 为 了 弥 
补 这 个 缺陷 ， 贝 叶 斯 优化 算法 会 在 探索 和 利用 之 间 找 到 一 个 平衡 
Bh, “探索 ? 吏 是 在 还 未 取样 的 区 域 获取 采样 点 ;而 “利用 ?” 则 是 根据 后 
验 分 布 在 最 可 能 出 现 全 局 最 值 的 区 域 进行 采样 。 


HI = 


Google 使 用 一 套 超 参数 调 优 算法 来 烘焙 更 美味 的 饼干 


“ 超 参数 调 优 ?和 “烘焙 饼干 "这 两 件 事情 ， 乍 一 听 感 觉 风 马 牛 不 相 及 ， 但 细 想 一 
下 ， 似 乎 又 有 一 定 的 相似 之 处 一 一 “墨盒 优化 ”。 结 构 复 杂 的 深度 学 习 模型 某 种 程度 上 就 
是 一 个 黑 例 ， 为 实现 更 好 的 优化 目标 ， 我 们 不 断 进行 “ 超 参数 调 优 ” 来 优化 这 个 黑金 。 烘 
焙 饼干 似乎 也 是 类 似 的 过 程 ， 为 了 烘焙 出 更 好 吃 的 饼干 ， 厨 师 们 往往 需要 调节 诸如 醒 面 
时 间 、 烘 焙 温 度 、 烘 焙 时 长 等 超 参 数 ， 而 最 后 到 压 是 哪些 因素 让 饼干 更 好 吃 谁 也 说 不 清 
楚 ， 这 不 也 是 “黑金 优 化 ” 嘛 。 


之 前 大 公司 解决 超 参数 调 优 问题 的 最 好 方法 被 戏称 为 “博士 生 下 降 法 ”( 即 让 博士 
生 人 工 调整 梯度 下 降 法 的 参数 ) 。 后 来 ，Google 为 了 解决 公司 内 部 大 量 机 器 学 习 模 型 的 
调 优 问题 ， 开 发 了 一 套 超 参数 调 优 系统 ， 被 称 作 Google Vizier ° Google Vizier 采 用 迁移 
学 习 的 思想 ， 主 要 是 从 之 前 调 参 的 经 验 中 学 习 ， 为 新 算法 提出 最 佳 超 参 数 。 在 搭建 好 
Google Vizier 后 ，Google 的 工程 师 们 为 了 测试 他 们 的 算法 ， 向 Google 食 竺 制作 饼干 的 承 
包 商 提供 了 饼干 食谱 和 烘焙 方法 ， 并 不 断 对 结果 进行 了 口味 测试 。 在 经 过 几 轮 测试 和 烘 
焙 方法 调 优 之 后 ， 饼 干 确实 更 好 吃 了 ..…. 继 AlphaGo 击 败 了 围棋 选手 之 后 ， 全 世界 的 厨 
师 们 也 许 已 经 在 Google Vizier 面 前 瑟瑟 发 拌 。 


场景 描述 


在 模型 评估 与 调整 的 过 程 中 ， 我 们 往往 会 遇 到 “过 拟 合 ” 或 “ 欠 拟 
合 ” 的 情况 。 如 何 有 效 地 识别 “过 拟 合 ”和 "从 拟 合 "现象 ， 并 有 针对 性 地 
进行 模型 调整 ， 征 不 断 改 进 机 喜 学 习 模 型 的 关键。 特别 是 在 实际 项 目 
中 ， 采 用 多 种 方法 、 从 多 个 角度 降低 * 过 拟 合 ”和 "* 天 拟 合 ” 的 风险 是 算 
法 工程 师 应 当 具 备 的 领域 知识 。 


知识 点 


We, KMA 


n> 
np 


问题 1 在 模型 评估 过 程 中 ， 过 拟 合 和 从 拟 合 具体 是 指 什 
么 现象 ? 


难度 ， 友 六 六 六 六 
分 析 与 解答 


过 拟 合 是 指 模型 对 于 训练 数据 拟 合 择 过 当 的 情况 ， 反 映 到 评估 指 
标 上 ， 婚 下 模型 在 训练 集 上 的 表现 很 好 ， 但 在 测试 集 和 新 数据 上 的 表 
现 较 差 。 欠 拟 合 指 的 古 模 型 在 训练 和 预测 时 表现 都 不 好 的 情况 。 图 2.5 
形象 地 摘 述 了 过 拟 合 和 从 拟 合 的 区 别 。 


(a) RWG (b ) 正常 模型 (c ) 过 拟 合 


图 2.5” 父 拟 合 与 过 拟 合 


可 以 看 出 ， 图 2.5 (a) 是 欠 拟 合 的 情况 ， 拟 合 的 黄 线 没 有 很 好 地 
捕捉 到 数据 的 特征 ， 不 能 够 很 好 地 拟 合 数据 。 图 2.5 (c) 则 是 过 拟 合 
的 情况 ， 模 型 过 于 复杂 ， 把 噪声 数据 的 特征 也 学 习 到 模型 中 ， 导 致 模 
型 泛 化 能 力 下 降 ， 在 后 期 应 用 过 程 中 很 容易 输出 错误 的 预测 结 采 。 


问题 2 ”能 否 说 出 几 种 降低 过 拟 合 和 天 拟 合 风险 的 方法 ? 


E: kN 


分 析 与 解答 


降低 “过 拟 合 ”风险 的 方法 


(1) 从 数据 入 手 ， 获 得 更 多 的 训练 数据 。 使 用 更 多 的 训练 数据 是 
解决 过 拟 合 问 题 最 有 效 的 手段 ， 因 为 更 多 的 样本 能 够 让 模型 学 习 到 更 
多 更 有 效 的 特征 ， 减 小 噪声 的 影响 。 当 然 ， 直 接 增 加 实验 数据 一 般 是 
很 困难 的 ， 但 是 可 以 通过 一 定 的 规则 来 扩充 训练 数据 。 比 如 ， 在 图 像 
分 类 的 问题 上 ， 可 以 通过 图 像 的 平移 、 旋 转 、 缩 放 等 方式 扩充 数据 ; 
更 进一步 地 ， 可 以 使 用 生成 式 对 抗 网 络 来 合成 大 量 的 者 训练 数据 。 


(2) 降低 模型 复杂 度 。 在 数据 较 少 时 ， 模 型 过 于 复杂 是 产生 过 拟 
合 的 主要 因素 ， 适 当 降 低 模型 复杂 度 可 以 避免 模型 拟 合 过 多 的 采样 噪 
声 。 例 如 ， 在 神经 网 络 模型 中 减少 网 络 层 数 、 神 经 元 个 数 等 ;在 决策 
PARAL H RECT VAR BE > ETT BY ASE o 


(3) 正则 化 方法 。 给 模型 的 参数 加 上 一 定 的 正则 约束 ， 比 如 将 权 
值 的 大 小 加 入 到 损失 函数 中 。 以 L2 正 则 化 为 例 : 


1 
C=C+—。> w 


(2.18) 


这 样 ， 在 优化 原来 的 目标 函数 Co 的 同时 ， 也 能 避免 权 值 过 大 市 来 的 过 
拟 合 风 险 。 


(4) 集成 学 习 方法 。 集 成 学 习 是 把 多 个 模型 集成 在 一 起 ， 来 降低 
单一 模型 的 过 拟 合 风 险 ， 如 Bagging 方 法 。 


m 降低 “ 欠 拟 合 ” 风 险 的 方法 


(1) 添加 新 特征 。 当 特征 不 足 或 者 现 有 特征 与 样本 标签 的 相关 性 
不 强 时 ， 模 型 容易 出 现 欠 拟 合 。 通 过 挖 据 * 上 下 文 特征 ”ID 类 特征 “组 
合 特征 ”等 新 的 特征 ， 往 往 能 够 取得 更 好 的 效果 。 在 深度 学 习 潮 流 中 ， 
有 很 多 模型 可 以 帮助 完成 特征 工程 ， 如 因子 分 解 机 、 梯 度 提升 决策 
树 、Deep-crossing 等 都 可 以 成 为 丰富 特征 的 方法 。 

(2) 增加 模型 复杂 度 。 简 单 模型 的 学 习 能 力 较 差 ， 通 过 增加 模型 


的 复杂 度 可 以 使 模型 拥有 更 强 的 拟 合 能 力 。 例 如 ， 在 线性 模型 中 添加 
高 次 项 ， 在 神经 网 络 模型 中 增加 网 络 层 数 或 神经 元 个 数 等 。 


(3) 减 小 正则 化 系数 。 正 则 化 是 用 来 防止 过 拟 合 的 ， 但 当 模 型 出 
现 灾 拟 合 现象 时 ， 则 需要 有 针对 性 地 减 小 正则 化 系数 。 


Sze ”经 典 算法 


不 护 初 心 ， 方 得 始终 。 何 谓 “ 初 心 ”? 初 心 便 是 在 深度 学 习 、 人 工 
智能 呼风唤雨 的 时 代 ， 对 数据 和 结论 之 间 那 条 朴素 之 路 的 永恒 探寻 ， 
征集 前 人 之 大 智 ， 真 诚 质 朴 求法 回 道 的 心中 凤 愿 。 


没有 最 好 的 分 类 器 ， 只 有 最 合适 的 分 类 峰 。 随 着 神经 网 络 模型 日 
趋 火热 ， 深 度 学 习 大 有 一 统 江湖 之 势 ， 传 统 机 右 学 习 算 法 似乎 已 经 彻 
压 被 深度 学 习 的 光环 所 息 章 。 人 然而， 深度 学 习 是 数据 驱动 的 ， 失 去 了 
数据 ， 再 精密 的 深度 网 络 结构 也 是 画 饼 充饥 ， 无 的 放 矢 。 在 很 多 实际 
问题 中 ， 我 们 很 难得 到 海量 且 市 有 精确 标注 的 数据 ， 这 时 次 度 学 习 也 
忠 没 有 大 显 映 手 的 余地 ， 反 而 许多 传统 方法 可 以 灵活 巧妙 地 进行 处 
理 。 


本 章 将 介绍 有 监督 学 习 中 的 几 种 经 典 分 类 算法 ， 从 数学 原理 到 实 
例 分 析 ， 再 到 扩展 应 用 ， 深 入 浅 出 地 为 读者 解读 分 类 问题 历史 长 河中 
的 胜 败 兴 琶 。 和 掌握 机 融 学 习 的 基本 模型 ， 不 仅 是 学 好 深度 学 习 、 成 为 
优秀 数据 工程 师 的 基础 ， 更 可 以 将 很 多 数学 模型 、 统 计 理 论 学 以 至 
用 ， 探 寻 人 工 智能 时 代数 据 海 详 中 的 规律 与 本 源 。 


01 支持 向 量 机 


场景 描述 


支持 向 量 机 (Support Vector Machine, SVM) 是 众多 监督 学 习 方 
法 中 十 分 出 色 的 一 种 ， 几 乎 所 有 讲述 经 典 机 需 学 习 方法 的 教材 都 会 介 
绍 。 关 于 SVM， 流 传 着 一 个 关于 天 使 与 魔 电 的 故事 。 

传说 魔 时 和 天 使 玩 了 一 个 游戏 ， 魔 时 在 桌 上 放 了 两 种 颜色 的 球 ， 
如 图 3.1 所 示 。 魔 见 让 天 使 用 一 根木 棍 将 它们 分 开 。 这 对 天 使 来 说 ， 似 
乎 太 容 易 了 。 天 使 不 假 思索 地 一 摆 ， 便 完成 了 任务 ， 如 图 3.2 所 示 。 魔 
电 又 加 入 了 更 多 的 球 。 随 着 球 的 增多 ， 人 似乎 有 的 球 不 能 再 被 原来 的 木 
棍 正 确 分 开 ， 如 图 3.3 所 示 。 


图 3.1 分 球 问题 1 


图 3.2 ”分 球 问 题 1 的 简单 解 


图 3.3 ”分 球 问题 2 


SVM 实际 上 是 在 为 天 使 找到 木 棒 的 最 佳 放 置 位 置 ， 使 得 两 边 的 球 
都 离 分 隔 它们 的 木 棒 足 够 远 ， 如 图 3.4 所 示 。 依 照 SVM 为 天 使 选择 的 木 
棱 位 置 ， 魔 网 即使 按 刚 才 的 方式 继续 加 入 新 球 ， 木 棱 也 能 很 好 地 将 两 
类 不 同 的 球 分 开 ， 如 图 3.5 所 示 。 


图 3.4 分 球 问题 1 的 优化 解 


图 3.5 分 球 问题 1 的 优化 解 面 对 分 球 问 题 2 


看 到 天 使 已 经 很 好 地 解决 了 用 木 棱 线性 分 球 的 问题 ， 魔 网 又 给 了 
天 使 一 个 新 的 挑战 ， 如 图 3.6 所 示 。 按照 这 种 球 的 摆 法 ， 世 界 上 貌似 没 
有 一 根木 棒 可 以 将 它们 完美 分 开 。 但 天 使 毕竟 有 法 力 ， 他 一 担 和 蝎子， 
便 让 这 些 球 飞 到 了 空中 ， 然 后 凭借 念力 抓 起 一 张 纸 片 ， 揪 在 了 两 类 球 
的 中 间 ， 如 图 3.7 所 示 。 从 麻风 的 角度 看 这 些 球 ， 则 像 是 被 一 条 曲线 完 
美的 切 开 了 ， 如 图 3.8 所 示 。 


图 3.6 分 球 问题 3 


输入 空间 核 映 射 空间 
图 3.7 高 维 空间 中 分 球 间 题 3 的 解 


图 3.8 ”魔鬼 视角 下 分 球 问题 3 的 解 


后 来 , “无 聊 ” 的 科学 家 们 把 这 些 球 称 为 “数据 ”， 把 木 棍 称 为 “分 类 
面 "， 找 到 最 大 间隔 的 木 棱 位 置 的 过 程 称 为 “优化 ”， 拍 桌子 让 球 飞 到 空 
中 的 念力 叫 “ 核 映射 ”在 空中 分 隔 球 的 纸 片 称 为 “分 类 超 平 面 "*。 这 便 
是 SVM 的 董 话 故 事 。 


在 现实 世界 的 机 需 学 习 领 域 ，SVM 洱 盖 了 各 个 方面 的 知识 ， 也 是 
面试 题目 中 常见 的 基础 模型 。 本 届 的 第 1 个 问题 考察 SVM 模 型 推导 的 
基础 知识 ; 第 2 题 一 第 4 题 则 会 侧重 对 核 函 数 (Kemel Function) 的 理 
解 fe} 


ALVA 


SVM 模型 推导 ， 核 函数 ， SMO ( Sequential Minimal 
Optimization) 算法 


问题 1 在 空间 上 线性 可 分 的 两 类 点 ， 分 别 癌 SVM 分 类 的 
Re 
` pu í 


IERE: A 
分 析 与 解答 


首先 明确 下 题目 中 的 概念 ， 线 性 可 分 的 两 类 点 ， 即 通过 一 个 超 乎 
面 可 以 将 两 类 点 完全 分 开 ， 如 图 3.9 所 示 。 假 设 绿 色 的 超 平面 (对 于 二 
维 空间 来 说 ， 分 类 超 平面 退化 为 一 维 直 线 ) 为 SVM 算 法 计算 得 出 的 分 
类 面 ， 那 么 两 类 点 就 被 完全 分 开 。 我 们 想 探 讨 的 是 :将 这 两 类 点 同 绿 
色 平 面 上 做 投影 ， 在 分 类 直线 上 得 到 的 黄 标 两 类 投影 点 是 否 仍然 线性 
可 分 ， 如 图 3.10 所 示 。 
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图 3.9 支持 向 量 机 分 类 
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图 3.10 样本 点 在 分 类 面 上 投影 


显然 一 眼 望 去 ， 这 些 点 在 分 类 超 平面 (绿色 直线 ) 上 相互 间隔 ， 
并 不 是 线性 可 分 的 。 考 虑 一 个 更 位 单 的 反例 ， 设 想 二 维 空间 中 只 有 两 
个 样本 点 ， 每 个 点 各 属于 一 类 的 分 类 任务 ， 此 时 SVM 的 分 类 超 乎 面 
(直线 ) 就 是 两 个 样本 点 连 线 的 中 垂 线 ， 两 个 点 在 分 类 面 (直线 ) 上 
的 投影 会 落 到 这 条 直线 上 的 同一 个 点 ， 目 然 不 是 线性 可 分 的 。 


但 实际 上 ， 对 于 任意 线性 可 分 的 两 组 点 ， 它 们 在 SVM 分 类 的 超 平 
面 上 的 投影 都 是 线性 不 可 分 的 。 这 听 上 去 有 些 不 可 思议 ， 我 们 不 妨 从 
二 维 情况 进行 讨论 ， 再 推广 到 高 维 空间 中 。 


由 于 SVM 的 分 类 超 平面 仅 由 文 持 向 量 决 定 (之 后 会 证 明 这 一 结 
论 ) ， 我 们 可 以 考虑 一 个 只 含 支 持 向 量 SVM 模 型 场景 。 使 用 反 证 法 来 


证 明 。 假 设 存在 一 个 SVM 分 类 超 平面 使 所 有 支持 向 量 在 该 超 平面 上 的 
投影 依然 线性 可 分 ， 如 图 3.11 所 示 。 根 据 简单 的 初等 几何 知识 不 难 发 
现 ， 图 中 AB 两 点 连 线 的 中 垂 线 所 组 成 的 超 平 面 (绿色 虚线 ) 是 相 较 于 
绿色 实 线 超 平 面 更 优 的 解 ， 这 与 之 前 假设 绿色 实 线 超 平面 为 最 优 的 解 
相 邓 盾 。 考 虑 最 优 解 对 应 的 绿色 唐 线 两 组 点 经 过 投影 后 ， 并 不 是 
性 可 分 的 。 
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图 3.11 更 优 的 分 类 超 平 


我 们 的 证 明 目 前 还 有 不 严谨 之 处 ， 即 我 们 假设 了 仅 有 文 持 向 量 的 
情况 ， 会 不 会 在 超 平面 的 变换 过 程 中 支持 向 量 发 生 了 改变 ,原先 的 非 
支持 向 量 和 支持 向 量 发 生 了 转化 呢 ? 下 面 我 们 证 明 SVM 的 分 类 结果 仅 
依赖 于 文 持 向 量 。 考 虑 SVM 推导 中 的 KKT 条 件 要 求 


= 


N 
V,,L(@ ,B a’) =@ = Sia; y,x, =0 
i=l ; 


N 
V,L(@ p a )=-9 a; y, =0 
i=l ) 


agw =t Meath 


(3.3) 
g(@)<0,i=1,....N 


(3.4) 


(3.5) 


结合 式 (3.3) MEN (3.4) 两 个 条 件 不 难 发 现 ， 当 gitw*)<0 时 ， 必 
有 Qi =0， 将 这 一 结果 与 拉 格 朗 日 对 偶 优 化 问题 的 公式 相 比较 


* * * 1 * N * * 
Lia a ,p = Zo" +20 8(0 ) 
i=l 3 


g (œ) z -y,(@ ° xX; + B)+1. 
(3.7) 


可 以 看 到 ， 除 文 持 问 量 外 ， 其 他 系数 均 为 0， 因 此 SVM 的 分 类 续 
条 与 仅 使 用 文 持 同 量 的 分 类 结果 一 致 ， 说 明 SVM 的 分 类 结果 仅 依 赖 于 
文 持 同 量 ， 这 也 征 SVM 拥 有 极 高 运行 效率 的 关键 之 一 。 于 是 ， 我 们 证 
明了 对 于 任意 线性 可 分 的 两 组 点 ， 它 们 在 SVM 分 类 的 超 平面 上 的 投影 
都 是 线性 不 可 分 的 。 


实际 上 ， 该 问题 也 可 以 通过 上 是 优化 理论 中 的 超 平面 分 离 定 理 
(Separating Hyperplane Theorem, SHT) 更 加 轻巧 地 解决 。 该 定理 描 
述 的 是 ， 对 于 不 相交 的 两 个 是 集 ， 存 在 一 个 超 平 面 ， 将 两 个 凸 集 分 
房 。 对 于 二 维 的 情况 ， 两 个 凸 集 间距 离 最 短 两 点 连 线 的 中 尼 线 就 是 一 
个 将 它们 分 离 的 超 平面 。 
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点 的 连 线 上 。 因 此 ， 两 个 串 包 间距 离 最 短 的 两 个 点 可 以 分 为 三 种 情 
况 : 两 边 的 点 均 为 样本 点 ， 如 图 3.12 (a) 所 示 ; 两 边 的 点 均 在 样本 点 
的 连 线 上 ， 如 图 3.12 (b) 所 示 ; 一 边 的 点 为 样本 点 ， 另 一 边 的 点 在 样 
本 点 的 连 线 上 ， 如 图 3.12 (c) 所 示 。 从 几何 上 分 析 即 可 知道 ， 无 论 哪 
种 情况 两 类 点 的 投影 均 征 线性 不 可 分 的 。 


x = 
@ x = © 

gam: x 
(a) 第 一 种 情况 (b) 第 二 种 情况 (c) 第 三 种 情况 


图 3.12 ”两 个 凸 包 上 距离 最 短 的 两 个 点 对 应 的 三 种 情况 


至 此 ， 我 们 从 SVM 直观 推导 和 上 优化 理论 两 个 角度 揭示 了 题目 的 
真相 。 其 实 ， 在 机 器 学 习 中 还 有 很 多 这 样 看 上 去 显而易见 ， 细 究 起 来 
却 不 可 思议 的 结论 。 面 对 每 一 个 小 问题 ， 我 们 都 应 该 从 数学 原理 出 
A, ABU DES, SE a a mM DLA eee BR EY 
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问题 ”是 否 存在 一 组 参数 使 SVM 训练 误差 为 09 


MEE: tok ky 


一 个 使 用 高 斯 核 (K(z,z) =e- |e- eP ) 训 练 的 SVM 中 ， 试 证 明 
若 给 定 训 练 集中 不 存在 两 个 点 在 同一 位 置 ， 则 存在 一 组 参数 
{Qj.…0mwb} 以 及 参数 y 使 得 该 SVM 的 训练 误差 为 0。 


分 析 与 解答 


根据 SVM 的 原理 ， 我 们 可 以 将 SVM 的 预测 公式 可 写 为 


f(x) = Dia yK(x,x) +b 
i=l ; 


(3.8) 
T 中 | (xt) , y 1)\ 
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参数 /为 训练 样本 的 参数 。 由 于 不 存在 两 个 点 在 同一 位 置 ， 因 此 对 于 任 
Bie, Ae) —0 > =。 我 们 可 以 对 任意 i， 固 定 w=1 以 及 b=0， 只 保 
留 参数 y， 则 有 


f(x) = DiayK(x,x) +b 
i=] 
= SKE" a) 
i=l 


m > 
= Sa ae 
i=l 


(3.9) 
将 任意 xO 代 入 式 (3.9) 则 有 
fo”) Z m D pP -01 1? 
(3.10) 


f(x)-y = > poe ts 


i=1,izj 
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i=1,i+ j 


(3.12) 
amga” -ea E :/Viogm， 可 将 式 (3.12) BF 
为 
; ; CA) D2 2 
Dp Ye 4 | 
i=L,i#7 
<I >》 ee|- 
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(3.13) 


所 以 ， 对 于 任意 x ， 预 测 结果 f(z ) 与 样本 真实 标签 yD 的 距离 小 
于 1。 注 意 到 ，yWE{1,-1}， 当 训练 样本 为 正 例 ， 即 y= 1 时 ， 预 测 结 
果 f(z™)>0， 样 本 被 预测 为 正 例 ， 而 当 训 练 样本 为 负 例 ， 即 y= 一 1 
时 ， 预 测 结果 f(r")<0， 样 本 被 预测 为 负 例 。 因 此 所 有 样本 的 类 别 都 
被 正确 预测 ， 训 练 误差 为 0 。 


问题 3 ”训练 误差 为 0 的 SVM 分 类 器 一 定 存在 吗 ? 
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里 然 在 问题 2 中 我 们 找到 了 一 组 参数 {qj,.…,a,b} 以 及 y 使 得 SVM 的 
训练 误差 为 0， 但 这 组 参数 不 一 定 是 满足 SYM 条件 的 一 个 解 。 在 实际 
训练 一 个 不 加 入 松弛 变量 的 SYM 模 型 时 ， 是 否 能 保证 得 到 的 SYM 分 类 

独 满 足 训 练 误差 为 0 呢 ? 


分 析 与 解 管 
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找到 一 组 参数 满足 训练 误差 为 0， 且 是 SVM 模 型 的 一 个 解 。 


考虑 SVM 模型 中 解 的 限制 条 件 %)J(zm) > 1。 我 们 已 经 得 到 了 一 
Aaga =m, feo; máy” = 一! 时 ，f(z 中 )0。 现 在 需 
要 找到 一 组 参数 满足 更 强 的 条 件 ， 即 y0). fe) > 1 。 
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(3.14) 


观察 式 (3.14) ， 可 以 把 每 个 oj 都 选择 一 个 很 大 的 值 ， 同 时 取 一 个 
非常 小 的 y， 使 得 核 映 射 项 K(zw,z2)) 非 常 小 ， 于 是 mw 在 上 式 中 占据 绝 
对 主导 地 位 。 这 样 就 保证 对 任意 j 有 yf(70)>1， 满 足 SVM 解 的 条 件 。 
因此 SVM 最 优 解 也 满足 上 述 条 件 ， 同 时 一 定 使 模型 分 类 误差 为 0 。 


问题 4 加 入 松弛 变量 的 SVM 的 训练 误差 可 以 为 0 吗 ? 


MEE: tok sek 


在 实际 应 用 中 ， 如 采 使 用 SMO 算 法 来 训练 一 个 加 入 松弛 变量 的 线 
性 SVM 模型 ， 并 且 惩 加 因子 C 为 任 一 未 知 常数 ， 我 们 是 否 能 得 到 训练 
TRAE OMe A WE? 


分 析 与 解答 


使 用 SMO 算 法 训练 的 线性 分 类 器 并 不 一 定 能 得 到 训练 误差 为 0 的 

模型 。 这 是 由 于 我 们 的 优化 目标 改变 了 ， 并 不 再 是 使 训练 误 老 最 小 。 
CV & 

考虑 市 松弛 变量 的 SVM 模型 优化 的 目标 函数 所 包 合 的 两 项 : 2 和 


1 J 

DU ， 当 我 们 的 参数 C 选 取 较 小 的 值 时 ， 后 一 项 (正则 项 ) 将 占据 优 
化 的 较 大 比重 。 这 样 ， 一 个 带 有 训练 误差 ， 但 是 参数 较 小 的 点 将 成 为 
更 优 的 结果 。 一 个 简单 的 特例 是 ， 当 C 取 0 时 ，w 也 取 0 即 可 达到 优化 目 
标 ， 但 是 显然 此 时 我 们 的 训练 误差 不 一 定 能 达到 0 。 


SVM 理论 的 创始 人 Vladimir Vapnik 和 他 的 牛人 同事 


“ 物 以 类 聚 ， 人 以 群 分 "， 星 光 内 内 的 牛人 也 往往 扎堆 出 现 。1995 年 ， 当 统计 学 家 
Vladimir Vapnik 和 他 的 同事 提出 SVM 理论 时 ， 他 所 在 的 贝尔 实验 室 还 聚集 了 一 大 批 机 器 
学 习 领 域 大 名 导 易 的 牛人 们 ， 其 中 就 包括 被 誉 为 “人 工 智能 领域 三 区 马车 ”中 的 两 位 
Yann LeCun 和 Yoshua Bengio， 还 有 随机 梯度 下 降 法 的 创始 人 Leon Bottou。 无 论 是 在 传 
统 的 机 器 学 习 领 域 ， 还 是 当今 如 火 如 茶 的 深度 学 习 领域 ， 这 几 个 人 的 名 字 都 如 雷 贯 耳 。 
而 SVM 创始 人 Vapnik 的 生平 也 带 有 一 丝 传奇 色彩 。 


1936 年 ，Vladimir Vapnik 出 生 于 苏联 ° 
1958 年 ， 他 在 乌兹别克 大 学 完成 硕士 学 业 。 


1964 年 ， 他 于 莫斯科 的 控制 科学 学 院 获 得 博士 学 位 。 毕 业 后 ， 他 一 直 在 校 工作 到 
1990 年 。 在 此 期 间 ， 他 成 了 该 校 计算 机 科学 与 研究 系 的 系 主任 。 


1995 年 ， 他 被 伦敦 大 学 聘 为 计算 机 与 统计 科学 专业 的 教授 。 


1991 至 2001 年 间 ， 他 工作 于 AT&T 贝 尔 实验 室 ， 并 和 他 的 同事 们 一 起 提出 了 支持 
向 量 机 理论 。 他 们 为 机 器 学 习 的 许多 方法 奠定 了 理论 基础 。 


2002 年 ， 他 工作 于 新 泽 西 州 普林斯顿 的 NEC 实 验 室 ， 同 时 是 哥伦比亚 大 学 的 特聘 


=~ 
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教授 。 


2006 年 ， 他 成 为 美国 国家 工程 院 院 
2014 年 ， 他 加 入 了 Facebook 人 工 智能 实验 室 。 


02 ”逻辑 回归 


场景 描述 


逻辑 回归 (Logistic Regression) 可 以 说 是 机 器 学 习 领 域 最 基础 也 
是 最 常用 的 模型 ， 逻 辑 回 归 的 原理 推导 以 及 扩展 应 用 几乎 是 算法 工程 
师 的 必 备 技能 。 医 生病 理 诊断 、 银 行 个 人 信用 评估 、 邮 箱 分 类 垃圾 邮 
件 等 ， 无 不 体现 逻辑 回归 精巧 而 广泛 的 应 用 。 本 小 和 将 从 模型 与 原理 
出 发 ， 涵 盖 扩展 与 应 用 ， 一 探 逻 辑 回 归 的 真 诵 。 


知识 点 
逻辑 回归 ， 线 性 回归 ， 多 标签 分 类 ，Softmax 


问题 1 ”逻辑 回归 相 比 于 线性 回归 ， 有 何 有 异同 ? 


RE: kN 


分 析 与 解答 


逻辑 回归 ， 在 一 听 名 子 似 乎 和 数学 中 的 线性 回归 问题 异 派 同 源 ， 
但 其 本 质 却 是 大 相 径 三 。 


首先 ， 逻 辑 回归 处 理 的 是 分 类 问题 ， 线 性 回归 处 理 的 是 回归 问 
题 ， 这 是 两 者 的 最 本 质 的 区 别 。 逻 辑 回 归 中 ， 因 变量 取 值 是 一 个 二 元 
分 布 ， 模 型 学 习 得 出 的 是 三 g 妆 史 ， 即 给 定 自 变 量 和 超 参 数 后 ， 得 到 因 
变量 的 期 望 ， 并 基于 此 期 望 来 处 理 预测 分 类 问题 。 而 线性 回归 中 实际 


上 求解 的 是 yy = r, AWE BR Ry =O z+<s 的 一 个 近 
似 ， 其 中 ec 代表 误差 项 ， 我 们 使 用 这 个 近似 项 来 处 理 回归 问题 。 


分 类 和 回归 是 如 今 机 器 学 习 中 两 个 不 同 的 任务 ， 而 属于 分 类 算法 
的 逻辑 回归 ， 其 命名 有 一 定 的 历史 原因 。 这 个 方法 最 早 由 统计 学 家 
David Cox 在 他 1958 年 的 论文 《二 元 序列 中 的 回归 分 析 》 (The 
regression analysis of binary sequences) 中 提出 ， 当时 人 们 对 于 回归 与 
分 类 的 定义 与 今天 有 一 定 区 别 ， 只 是 将 “回归 ”这 a ° 实际 

P —_ = 'z 

上 ， 将 逻辑 回归 的 公式 进行 整理 ， 我 们 可 以 得 到 “ “1-p ， 其 中 
P= 二 Ply = 1lz)， 也 就 是 将 给 定 输入 x 预测 为 正 样本 的 概率 。 如 果 把 一 个 
事件 的 几率 (odds) 定义 为 该 事件 发 生 的 概率 与 该 事件 不 发 生 的 概率 


的 比值 1 Pp， 那么 逻辑 回归 可 以 看 作 是 对 于 “y=1|x” 这 一 事件 的 对 数 几 
率 的 线性 回归 ， 于 是 “逻辑 回归 ”这 一 称谓 也 束 延 续 了 下 来 。 


P 
在 天 于 逻辑 回归 的 讨论 中 ， 我 们 均 认 为 y 是 因 变 量 ， 而 非 1 一 了 P， 这 
便 引 出 逻辑 回归 与 线性 回归 最 大 的 区 别 ， 即 逻辑 回归 中 的 因 变 量 为 离 
散 的 ， 而 线性 回归 中 的 因 变 量 是 连续 的 。 并 且 在 目 变 量 x 与 超 参数 0 确 
定 的 情况 下 ， 逻 辑 回 归 可 以 看 作 广 义 线性 模型 (Generalized Linear 
Models) 在 因 变 量 y 服 从 二 元 分 布 时 的 一 个 特殊 情况 ;而 使 用 最 小 二 乘 
法 求解 线性 回归 时 ， 我 们 认为 因 变 量 y 服 从 正 态 分 布 。 


当然 逻辑 回归 和 线性 回归 也 不 乏 相 同 之 处 ， 首 先 我 们 可 以 认为 二 
者 都 使 用 了 极 大 似 然 佑 计 来 对 训练 样本 进行 建 模 。 线 性 回归 使 用 最 小 
二 乘法 ， 实 际 上 融 是 在 目 变 量 x 与 超 参数 0 确定 ， 因 变量 y 服 从 正 态 分 布 
的 假设 下 ， 使 用 极 大 似 然 估计 的 一 个 化 位， 而 逻辑 回归 中 通过 对 似 然 
画 数 co-JoworHeero-reo 的 学 习 ， 得 到 最 佳 参数 9。 另外， 二 者 在 求 
解 超 参数 的 过 程 中 ， 都 可 以 使 用 梯度 下 降 的 方法 ， 这 也 是 监督 学 习 中 
一 个 弟 见 的 相似 之 处 。 


问题 当 使 用 逻辑 回归 处 理 多 标签 的 分 类 问题 时 ， 有 哪 
a 分 别 应 用 于 哪些 场景 ， 它 们 之 间 又 有 怎样 的 


MERE: eke reo 

分 析 与 解答 
使 用 哪 一 种 办 法 来 处 理 多 分 类 的 问题 取决 于 具体 问题 的 定义 。 首 
先 ， 如 果 一 个 样本 只 对 应 于 一 个 标签 ， 我 们 可 以 假设 每 个 样本 属于 不 


同 标 签 的 概率 服从 于 几何 分 布 ， 使 用 多 项 逻辑 回归 ( Softmax 
Regression) 来 进行 分 类 


PO =1| x38) 
koe PPE E 


p(y =k]|x;0) 


] eo 


k T 
$e 
JA 


(3.15) 


HHG,,0,,....0, sR" 为 模型 的 参数 ， 而 各。 可 以 看 作 是 对 概率 的 归 一 
化 。 为 了 方便 起 见 ， 我 们 将 {@, 印 …6 近 /个 列 向 量 按 顺 序 排列 形成 
nxj 维 矩阵 ， 写 作 9， 表 示 整 个 参数 集 。 一 般 来 说 ， 多 项 逻辑 回归 具有 
参数 元 余 的 特点 ， 即 将 6, 久 ,…, 久 同时 加 减 一 个 向 量 后 预测 结果 不 变 。 
特别 地 ， 当 类 别 数 为 2 时 ， 


1 ex 
h, (x) = 一 一 一 
ol ) e1 pe?" ee” 
(3.16) 


利用 参数 元 余 的 特点 ， 我 们 将 所 有 参数 减 去 9 ， 式 (3.16) ZK 


F ( ) 1 e? x 
X 一 一 
ett 4 eZ- | CO -A )x 


1 
1+ e” 
1 


T 
1l+e?*] 


| 一 


(3.17) 


其 中 0 = 6, -0 > RSA Se SAIN o 因此 ， 多 项 逻辑 回 
归 实 际 上 是 二 分 类 人 逻 辑 回 归 在 多 标签 分 类 下 的 一 种 拓展 。 


当 存在 样本 可 能 属于 多 个 标签 的 情况 时 ， 我 们 可 以 训练 K 个 二 分 类 
的 人 逻辑 回归 分 类 絮 。 第 i 个 分 类 器用 以 区 分 每 个 样本 是 否 可 以 归 为 第 i 
类 ， 训 练 该 分 类 器 时 ， 需 要 把 标 位 重新 整理 为 “第 ;类 标签 "与 “ 非 第 类 
T o IINE, RADARRA T BEAN] BEA Ph 
签 的 情况 。 


03 ”决策 树 


场景 描述 


时 间 ， 早 上 八 点 ， 地 点 ， 婚 介 所 。 

“ 国 女 ， 我 又 给 你 找 了 个 合适 的 对 象 ， 今 天 要 不 要 见 一 面 ?” 
‘BK? 26H o” 

“长 得 是 吗 ?”“ 还 可 以 ， 不 算 太 帅 。” 
“LBA? ” WET EIA ©» 

“会 写 代码 吗 ? A RURAL AL, RSS EME!” 

“好 ， 那 把 他 联系 方式 发 来 吧 ， 我 抽空 见 一 面 。” 

这 便 是 中 国 特色 相亲 故事 ， 故 事 中 的 女孩 做 决定 的 过 程 就 是 一 个 


是 一 
典型 的 决策 树 分 类 ， 如 图 3.13 所 示 。 通 过 年 龄 、 长 相 、 工 资 、 是 否 会 
编程 等 属性 对 男生 进行 了 两 个 类 别 的 分 类 见 或 不 见 。 


ml . 

一 般 中 等 4 
-ml a 
图 3.13 ”女孩 的 分 类 决策 过 程 


决策 树 是 一 种 目 上 而 下 ， 对 样本 数据 进行 树 形 分 类 的 过 程 ， 由 结 
上 护 和 有 癌 边 组 成 。 结 点 分 为 内 部 结 点 和 叶 结 点 ， 其 中 每 个 内 部 结 点 表 
示 一 个 特征 或 属性 ， 叶 结 点 表示 类 别 。 从 顶部 根 结 点 开始 ， 所 有 样本 
聚 在 一 起 。 经 过 根 结 点 的 划分 ， 样 本 被 分 到 不 同 的 子 结扎 中 。 再 根据 
子 结 点 的 特征 进一步 划分 ， 直 至 所 有 样本 都 被 归 到 某 一 个 类 别 《即时 


和 


决策 树 作 为 最 基础 、 最 常见 的 有 监督 学 习 模型 ， 常 被 用 于 分 类 问 
题 和 回归 问题 ， 在 市 场 膏 销 和 生物 医药 等 领域 尤其 受 欢 迎 ， 主 要 因为 
树 形 结构 与 销售 、 诊 断 等 场景 下 的 决策 过 程 十 分 相似 。 将 决策 树 应 用 
集成 学 习 的 思想 可 以 得 到 随机 和 森林、 梯度 提升 决策 树 等 模型 ， 这 些 将 
在 第 12 章 中 详细 介绍 。 完 全 生长 的 决策 树 模型 具有 简单 直观 、 解 释 性 
强 的 特点 ， 值 得 读者 认真 理解 ， 这 也 是 为 融会 贯通 集成 学 习 相 关内 容 
FIT RES) FEE: o 


RME, TRA Cae TIERE + AAI + PTB AK 
二 个 过 程 ， 本 市 将 在 第 一 个 问题 中 对 几 种 第 用 的 决策 树 进行 对 比 ， 在 
第 二 个 问题 中 探讨 决策 树 不 同 剪 术 方 法 之 间 的 区 别 与 联系 。 


知识 ， LAAJ 
aA, WERGEA, AER 


问题 1 决策 树 有 哪些 常用 的 局 发 画 数 ? 


难度 : krh 


我 们 知道 ， 决 策 树 的 目标 是 从 一 组 样本 数据 中 ， 根 据 不 同 的 特征 
和 属性 ， 建 立 一 棵 树 形 的 分 类 结构 。 我 们 既 布 望 它 能 拟 合 训练 数据 ， 
达到 民 好 的 分 类 效果 ， 同 时 又 希望 控制 其 复 洒 度 ， 使 得 模型 具有 一 定 
的 泛 化 能 力 。 对 于 一 个 特定 的 问题 ， 决 策 树 的 选择 可 能 有 很 多 种 。 比 
如 ， 在 场景 描述 中 ， 如 采 女 孩 把 会 写 代 码 这 一 属性 放 在 根 结 点 考虑 ， 
可 能 只 需要 很 简单 的 一 个 树 结构 束 能 完成 分 类 ， 如 图 3.14 所 示 。 


图 3.14 ”以 写 代码 为 根 节 点 属性 的 决策 过 程 


从 大 干 不 同 的 决策 树 中 选取 最 优 的 决策 树 是 一 个 NP 完全 问题 ,在 
ae eee NEA ee 
WRG MY o 


常用 的 决策 树 算法 有 ID3、C4.5、CART， 它 们 构建 树 所 使 用 的 启 
ATURE ETA? 除了 构建 准则 之 外 ， 它 们 之 间 的 区 别 与 联系 是 什 
L? 


分 析 与 解答 


首先 ， 我 们 回顾 一 下 这 几 种 决策 树 构造 时 使 用 的 准则 。 
s ID3 一 一 最 大 信息 增益 
WTHAR ED, RABAK, BUERDN ZIMA 


= |C C 


(3.18) 


其 中 Ck 是 样本 集合 D 中 属于 第 k 类 的 样本 子 集 ，|C| 表 示 该 子 集 的 元 素 
个 数 ，|D| 表 示 样 本 集合 的 元 素 个 数 。 


然后 计算 某 个 特征 A 对 于 数据 集 D 的 经 验 条 件 炉 H(DIA) 为 


H(D| A)= aD- SRI- a tliog, io al 


(3.19) 


其 中 ，D; 表 示 D 中 特征 A 取 第 i 个 值 的 样本 子 集 ，Di 表 示 D; 中 属于 第 k 类 
的 样本 子 集 。 


于 是 信息 增益 g(D,A) 可 以 表示 为 二 者 之 兰 ， 可 得 
g(D, A) = H(D)—- H(D | A). 


(3.20) 


这 些 定义 听 起 来 有 点 像 绕 口令 ， 不 妨 我 们 用 一 个 例子 来 简单 说 明 
下 计算 过 程 。 假 设 共 有 5 个 人 退 求 场 景 中 的 女孩 ， 年 龄 有 两 个 属性 
( 老 ， 年 轻 ) ， 长 相 有 三 个 属性 〈 帅 ， 一 般 ， 丑 ) ， 工 资 有 三 个 属性 
(高 ， 中 等 ， 低 ) ， 会 写 代 码 有 两 个 属性 cy 不 全 最 区 分 类 结 
果 有 了 两 类 (W, 不见 ) 。 我 们 根据 女孩 有 监督 的 主观 意愿 可 以 得 到 表 
3.1 ° 


表 3.1 5 个 候选 对 象 的 属性 以 及 女孩 对 应 的 主观 意愿 


m |E 


在 这 个 问题 中 ， 


H(D) = ~=log, = slog, : = 0.971 


根据 式 (3.19) PTR BADIRE IN 


H(D | 年 龄 ) = SH) + 5 HFH) 


1 4/ 2 22 2 
i Hoe, Slow, |= 
ZN ) | 4 A 4 e2) ' 


H(D | K4) = =H) + 3 Hf) + HH) 


3/ 2, 2 1 1 
= 0+—| —— log, ——— log, — |+ 0 = 0.551 
| 3 233 eg) ， 


H(D | 工资 )= = HCP) + HCH) + ACEC) 


3/ 2, 2 1 1 
= lo lo +0+0=0.551 
z 3 3 3 e1) ， 


H(D| 写 代码 ) = SHR) HEHA) 
_ roa me 
==(0)+=@)=0 


于 是 ， 根 据 式 (3.20) 可 计算 出 各 个 特征 的 信息 增益 为 
2(D, 年 龄 ) =0.171, ge(D, 长 相 ) = 0.42, 


g(D, 工 资 )= 0.42，g(D, 写 代码 )= 0.971. 


显然 ， 特 征 “ 写 代码 ”的 信息 增 芷 最 大 ， 所 有 的 样本 根据 此 特征 ， 
可 以 直接 被 分 到 叶 结 点 ( 即 见 或 不 见 ) 中 ， 完 成 决策 树 生长 。 当 然 ， 
在 实际 应 用 中 ， 决 策 树 往往 不 能 通过 一 个 特征 丈 完 成 构建 ， 需 要 在 经 
验 精 非 0 的 类 别 中 继续 生长 。 


C4.5 一 一 最 大 信息 增益 比 
特征 A 对 于 数据 集 D 的 信息 增益 比 定义 为 


g(D, A) 
WA 
8x (D, A) H, (D), 
(3.21) 
其 中 
n |D,]| |D, 
H, (D = 一 》 一 10 po 
at ) = |D 82 D|. 
(3.22) 


称 为 数据 集 D 关 于 4 的 取 值 简 。 针 对 上 述 问 题 ， 我 们 可 以 根据 式 
(3.22) 求 出 数据 集 关 于 每 个 特征 的 取 值 粹 为 


1 
D =-=lo 1 Ba 
H ress ( ) 87 5 Bs 


1 1 3 3 1 1 
H,.,,(D) = ——log, —-——log, —-——log, — = 1.371 
gag (D) 5 82 5 5 82 5 5 82 5 


3 1 1 1 1 
—log, — —log, = pen 


3 
Hyg (D) =~ log, 5 5 0825 


3 2 
Herua (D) =- slog, = > 3 bg, a 0.971 


TÆ, RA (3.21) 可 计算 出 各 个 特征 的 信息 增益 比 为 


gr(D, 年 龄 )= 0.236, gx(D, 长 相 ) = 0.402, 
Zr(D, L) = 0.402, ga(D, 写 代码 )=1. 


信息 增益 比 最 大 的 仍 是 特征 “ 写 代 码 ”， 但 通过 信息 增益 比 ， 特 
征 “ 年 岭 ” 对 应 的 指标 上 升 了 ， 而 特征 “长 相 ” 和 特征 “工资 * 却 有 所 下 
降 

四 CART_ ”最 大 基尼 指数 (Gini) 

Gini 摘 述 的 是 数据 的 纯度 ， 与 信息 烂 含义 类 似 。 


Gini(D) = a | 


k=1 


(3.23) 


CART 在 每 一 次 迭代 中 选择 基尼 指数 最 小 的 特征 及 其 对 应 的 切 分 
点 进行 分 类 。 但 与 ID3、C4.5 不 同 的 是 ，CART 是 一 颗 二 叉 树 ， 采 用 二 
元 切割 法 ， 每 一 步 将 数据 按 特 征 A 的 取 值 切 成 两 份 ， 分 别 进入 左右 子 
树 。 特 征 A 的 Gini 指 数 定义 为 


Gini(D | A) = $ Pi Cinio). 
i=l 
(3.24) 


还 是 考虑 上 述 的 例子 ， 应 用 CARIT 分 类 准则 ， 根 据 式 (3.24) 可 计 
算出 各 个 特征 的 Gini 指 数 为 
Gini(D| 年 龄 = 老 )=0.4， Gini(D| 年 龄 = 年 轻 )=0.4， 
Gini(D| 长 相 = 帅 )=0.4， Gini(D| 长 相 = 刁 )=0.4， 
Gini(D| 写 代码 = 会 )=0， Gini(D| 写 代码 = 不 会 )=0， 


Gini(D| 工 资 = 高 )=0.47， Gini(D| 工 资 = 中 等 )=0.3， 


Gini(D| 工 资 = 低 )=0.4. 


在 “年 龄 “长 相 ”“ 工 资 * 写 代码 ”四 个 特征 中 ， 我 们 可 以 很 快 地 发 
现 特 征 “ 写 代码 ”的 Gini 指 数 最 小 为 0， 因 此 选择 特征 “ 写 代 码 ” 作 为 最 优 
特征 ,“ 写 代码 = 会 "为 最 优 切 分 点 。 按 照 这 种 切 分 ， 从 根 结 点 会 直接 产 
生 两 个 叶 结 点 ， 基 尼 指 数 降 为 0， 完 成 决策 树 生长 。 


通过 对 比 三 种 决策 树 的 构造 准则 ， 以 及 在 同一 例子 上 的 不 同 表 
现 ， 我 们 不 难 总 结 三 者 之 间 的 差异 。 


首先 ，ID3 是 采用 信息 增益 作为 评价 标准 ， 除 了 “会 写 代 码 ” 这 一 逆 
天 特征 外 ， 会 倾向 于 取 值 较 多 的 特征 。 因 为 ， 信 息 增 益 反 映 的 是 给 定 
条 件 以 后 不 确定 性 减少 的 程度 ， 特 征 取 值 越 多 就 意味 着 确定 性 更 高 ， 
tH te EB), fe eK o IRE SEI ERB oo EL 
如 ， 我 们 引入 特征 *DNA”， 每 个 人 的 DNA 都 不 同 ， 如 果 ID3 按 
照 *DNA” 特 征 进 行 划 分 一 定 是 最 优 的 〈 条 件 烂 为 0) ， 但 这 种 分 类 的 
泛 化 能 力 是 非常 弱 的 。 因 此 ，C4.5 实 际 上 是 对 ID3 进 行 优 化 ， 通 过 引入 
信息 增益 比 ， 一 定 程 度 上 对 取 值 比较 多 的 特征 进行 惩罚 ， 避 免 ID3 出 
现 过 拟 合 的 特性 ， 提 升 决 策 树 的 泛 化 能 


其 次 ， 从 样本 类 型 的 角度 ，ID3 只 能 处 理 离散 型 变量 ， 而 C4.5 和 
CART 都 可 以 处 理 连 续 型 变量 。C4.5 处 理 连 续 型 变量 时 ， 通 过 对 数据 排 
序 之 后 找到 类 别 不 同 的 分 割 线 作为 切 分 点 ， 根 据 切 分 点 把 连续 属性 转 
换 为 布尔 型 ， 从 而 将 连续 型 变量 转换 多 个 取 值 区 间 的 离散 型 变量 。 而 
对 于 CART， 由 于 其 构建 时 每 次 都 会 对 特征 进行 二 值 划分 ， 因 此 可 以 
很 好 地 适用 于 连续 性 变量 。 


从 应 用 角度 ，ID3 和 C4.5 只 能 用 于 分 类 任务 ， 而 CART 
(Classification and Regression Tree， 分 类 回归 树 ) 从 名 字 就 可 以 看 出 
oo 也 可 以 应 用 于 回归 任务 (回归 树 使 用 最 小 平方 
误 其 准 则 £ 


此 外 ， 从 实现 细节 、 优 化 过 程 等 角度 ， 这 三 种 决策 树 还 有 一 些 不 
同 。 比 如 ，ID3 对 样本 特征 缺失 值 比较 敏感 ， 而 C4.5 和 CART 可 以 对 缺 
失 值 进行 不 同方 式 的 处 理 ; ID3 和 C4.5 可 以 在 每 个 结 点 上 产生 出 多 又 分 
文 ， 且 每 个 特征 在 层级 之 间 不 会 复 用 ， 而 CART 每 个 结 点 只 会 产生 两 
个 分 支 ， 因 此 最 后 会 形成 一 颗 二 叉 树 ， 且 每 个 特征 可 以 被 重复 使 用 ; 


ID3 和 C4.5 通 过 剪 术 来 权衡 树 的 准确 性 与 泛 化 能 力 ， 而 CART 直 接 利 用 
全 部 数据 发 现 所 有 可 能 的 树 结 构 进行 对 比 。 


至 此 ， 我 们 从 构造 、 应 用 、 实 现 等 角度 对 比 了 ID3、C4.5、CART 
这 三 种 经 典 的 决策 树 模型 。 这 些 区 别 与 联系 总 结 起 来 容易 ， 但 在 实际 
应 用 中 还 需要 读者 慢 慢 体会 ， 针 对 不 同 场景 灵活 变通 。 


问题 2 如何 对 决策 树 进行 剪 梳 ? 


MEE: tok sek 


一 棵 完全 生长 的 决策 树 会 面临 一 个 很 严重 的 问题 ， 即 过 拟 合 。 假 
设 我 们 真 的 需要 考虑 DNA 特 征 ， 由 于 每 个 人 的 DNA 都 不 同 ， 完 全 生长 
的 决策 树 所 对 应 的 每 个 叶 结 点 中 只 会 包含 一 个 样本 ， 这 就 导致 决策 树 
征 过 拟 合 的 。 用 它 进 行 预测 时 ， 在 测试 集 上 的 效 末 将 会 很 过 。 因 此 我 
(Fe TRI EAT BUA, BYP HEAT, FETAL IZ BE 

决策 树 的 剪 校 通常 有 两 种 方法 ， 预 剪 校 【Pre-Pruning) 和 后 剪 枝 


(Post-Pruning) 。 那 么 这 两 种 方法 是 如 何 进行 的 呢 ? 它们 又 各 有 什么 
TERR? 


分 析 与 解答 


预 豆 枝 ， 即 在 生成 决策 树 的 过 程 中 提前 集 止 树 的 增长 。 而 后 驴 
re TEE ATI RY EET BAN, Fa El Ta AY BY BIR 
对 o 
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oh we GE Be Te RRA iz (CRE Ibert, MWR ABE, MU AN ARE RF 
树 。 此 时 可 能 存在 不 同类 别 的 样本 同时 存 于 结 点 中 ， 按 照 多 数 投票 的 


ee o PABIRO Fa AY IER RT AE RL 
儿 种 方法 。 


(1) 当 树 到 达 一 定 深度 的 时 候 ， 停 止 树 的 生长 。 


(2) 当 到 达 当 前 结 点 的 样本 数量 小 于 某 个 靖 值 的 时 候 ， 停 止 树 的 
ERS 


(3) WHREKD ROMANE ER, STAT RE 
候 ， 不 再 继续 扩展 。 


预 剪 术 具 有 思想 直接 、 算 法 简单 、 歼 率 高 等 特点 ， 适 合 解决 大 规 
模 问 题 。 但 如 何 准确 地 估计 何 时 停止 树 的 生长 ( 即 上 述 方法 中 的 深度 
或 靖 值 ) ， 针 对 不 同 问 题 会 有 很 大 差别 ， 需 要 一 定 经 验 判 断 。 且 预 剪 
枝 存 在 一 定局 限 性 ， 有 天 拟 合 的 风险 ， 虽 然 当前 的 划分 会 导致 测试 集 
准确 率 降 低 ， 但 在 之 后 的 划分 中 ， 准 确 率 可 能 会 有 显著 上 升 。 


m 后 前 枝 


后 剪 枝 的 核心 思想 古 让 算法 生成 一 棵 完全 生长 的 决策 树 ， 然 后 从 
最 底层 癌 上 计算 是 否 鸡 校 。 豌 校 过 程 将 子 树 删除 ， 用 一 个 叶子 结 点 奉 
代 ， 该 结 点 的 类 别 同样 按照 多 数 投票 的 原则 进行 判断 。 同 样 地 ， 后 藤 
枝 也 可 以 通过 在 测试 集 上 的 准确 率 进 行 判断 ， 如 琳 豆 校 过 后 准确 率 有 
ief, METEIS e FBIS, Ja BIRA AE A n MRZE 
能 力 更 强 的 决策 树 ， 但 时 间 开 销 会 更 大 。 


常见 的 后 前 校方 法 包括 错误 率 降低 前 校 (Reduced Error Pruning, 
REP) 、 悲 观 剪 枝 (Pessimistic Error Pruning, PEP) 、 代 价 复杂 度 剪 
$% (Cost Complexity Pruning, CCP) 、 最 小 误差 剪 校 (Minimum Error 
Pruning, MEP) ` CVP (Critical Value Pruning) ` OPP (Optimal 
Pruning) IIE, AERA ERAR, RENEE, AB 
文选 取 若 名 的 CART 剪 枝 方 法 CCP 进 行 介绍 。 


代价 复杂 蔓 枝 主要 包含 以 下 两 个 步 又 。 


(1) 从 完整 决 岳 树 Tj 开始， 生成 一 个 子 树 序列 {TT,T2,…,T,}， 
其 中 Ti 由 区 生成， 为 树 的 根 结 点 。 


(2) 在 子 树 序列 中 ， 根 据 真实 误差 选择 最 佳 的 决策 树 。 


步骤 (1) 从 To 开始 ， 和 裁剪 了 Ti 中 关于 训练 数据 集合 误差 增加 最 小 的 
分 支 以 得 到 T,1。 具 体 地 ， 当 一 棵 树 T 在 结 点 t 处 剪 枝 时 ， 它 的 误差 增加 
可 以 用 R(0)-R(T) 表 示 ， 其 中 RQ 表示 进行 玖 枝 之 后 的 该 结 点 误差 ， 
R(T) 表 示 未 进行 辫 术 时 子 树 工 的 误差 。 考 虑 到 树 的 复杂 性 因素 ， 我 们 
用 |L(T)| 表 示 子 树 T 的 叶子 结 点 个 数 ， 则 树 在 结 点 t 处 茧 梳 后 的 误差 增加 
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用 一 个 例子 简单 地 介绍 生成 子 树 序 列 的 方法 。 假 设 把 场景 中 的 问 
题 进行 一 定 扩展 ， 女 孩 需 要 对 80 个 人 进行 见 或 不 见 的 分 类 。 假 设 根据 
某 种 规则 ， 已 经 得 到 了 一 棵 CART 决 策 树 T,， 如 图 3.15 所 示 。 


此 时 共 5 个 内 部 结 点 可 供 考 虑 ， 其 中 
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Hia (ts) 最 小 ， 因 此 对 6 进行 剪 枝 ， 得 到 新 的 子 树 7)， 如 图 3.16 
所 二 有 
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3.16 ”对 初始 决策 树 Tg 的 t3 结 点 前 枝 得 到 新 的 子 树 Tl 


而 后 继续 计算 所 有 结 点 对 应 的 误差 增加 率 ， 分 别 为 a(tj)=3， 
Q(ty)=3，a(ty)=4。 因 此 对 ty 进行 前 校 ， 得 到 T,， 如 图 3.17 所 示 。 此 时 
a(to)=6.5, a(t)=3, Wee wT YM, FBT, ° TERR FANA 
点 ， 即 根 结 点 ， 得 到 Ty ° 


在 步骤 (2) 中 ， 我 们 需要 从 子 树 序 列 中 选 出 真实 误差 最 小 的 决策 
树 。CCP 给 出 了 两 种 常用 的 方法 : 一 种 是 基于 独立 剪 极 数 据 集 ， 该 方 
法 与 REP 类 似 ， 但 由 于 其 只 能 从 子 树 序列 {ToT72T2…,T} 中 选择 最 佳 决 
策 树 ， 而 非 像 REP 能 在 所 有 可 能 的 子 树 中 寻找 最 优 解 ， 因 此 性 能 上 会 
有 一 定 人 不足。 男 一 种 是 基于 k 折 交 文 验证， 将 数据 集 分 成 k 份 ， 前 刀 1 份 
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再 从 这 N 个 子 树 中 选择 最 优 的 子 树 。 
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图 3.17 OT PAAR BIEI TAT 


代价 复杂 度 前 枝 使 用 交叉 验证 策略 时 ， 不 需要 测试 数据 集 ， 精 度 
与 REP 差 不 多 ， 但 形成 的 树 复 杂 度 小 。 而 从 算法 复杂 上 度 角 度 ， 由 于 生 
成 子 树 序 列 的 时 间 复 杂 度 与 原始 决策 树 的 非 叶 结 点 个 数 呈 二 次 关系 ， 
导致 算法 相 比 REP、PEP、MEP 等 线性 复杂 度 的 后 剪 枝 方法 ， 运 行 时 
间 开 销 更 大 。 


豌 校 过 程 在 决策 树 模型 中 占据 着 极其 重要 的 地 位 。 有 很 多 研究 表 
明 ， 藤 校 比 树 的 生成 过 程 更 为 关键。 对 于 个 同 划分 标准 生成 的 过 拟 合 
决策 树 ， 在 经 过 豆 术 之 后 都 能 保留 最 重要 的 属性 划分 ， 因 此 最 终 的 性 
能 差距 并 不 大 。 理 解 剪 枝 方法 的 理论 ， 在 实际 应 用 中 根据 不 同 的 数据 
类 型 、 规 模 ， 决 定 使 用 何 种 决 党 树 以 及 对 应 的 航 权 策略 ， 有 灵活 变通 ， 
找到 最 优选 择 ， 是 本 下 想 要 传达 给 读 着 的 思想 。 


奥 卡 姆 剃刀 定律 (Occam’s Razor, Ockham’s Razor) 
14 世 纪 ， 逻辑 学 家 、 圣 方 济 各 会 修士 奥 卡 姆 威廉 (William of Occam) 提出 奥 卡 
姆 剃刀 定律 。 这 个 原理 最 简单 的 描述 是 “如 无 必要 ， 勿 增 实体 *"， 即 “简单 有 效 原理 ”。 
很 多 人 误解 了 奥 卡 姆 剃刀 定律 ， 认 为 简单 就 一 定 有 效 ， 但 奥 卡 姆 剃刀 定律 从 来 没 


有 说 “简单 ”的 理论 就 是 “正确 ”的 理论 ， 通 常 表述 为 “ 当 两 个 假说 具有 完全 相同 的 解释 力 
和 预测 力 时 ， 我 们 以 那个 较为 简单 的 假说 作为 讨论 依据 ”。 


奥 卡 姆 剃刀 的 DEREX 与 机 器 学 习 消除 过 拟 合 的 思想 是 一 致 的 。 特 别 是 在 决策 树 
剪 术 的 过 程 中 ， 我 们 正 是 希望 在 预测 力 不 减 的 同时 ， 用 一 个 简单 的 模型 去 替代 原来 复杂 
的 模型 。 而 在 ID3 决 策 树 算 法 提出 的 过 程 中 ， 模 型 的 创建 者 Ross Quinlan t AKSR TA 
卡 姆 剃刀 的 思想 。 类 似 的 思想 还 同 Fear te 于 神经 网 络 的 Dropout 的 方法 中 ， 我 们 降低 模 
型 复杂 度 ， 为 的 是 提高 模型 的 泛 化 能 

严格 讲 ， FER REBT) RE 个 定理 ， 而 是 一 种 思考 问题 的 方式 。 我 们 面 对 任 
何 工 作 的 时 候 ， 如 果 有 一 个 简单 的 方法 和 一 个 复杂 的 方法 能 够 达到 同 机 的 效果 ， 我 们 应 
的 那个 。 因 为 简单 的 选择 是 巧合 的 几率 更 小 ， 更 有 可 能 反应 事物 的 内 在 规 
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宇宙 ， 有 是 时 间 和 空间 的 总 和 。 时 间 是 一 维 的 ， 而 空间 的 维度 ， 众 
说 纷 红 ， 至 今 没 有 定论 。 弦 理论 说 是 9 维 ， 上 霍金 所 认同 的 M 理 论 则 认为 
是 10 维 。 它 们 解释 说 人 类 所 能 感知 的 三 维 以 外 的 维度 都 被 卷曲 在 了 很 
小 的 空间 尺度 内 。 当 然 ， 谈 及 这 些 并 不 是 为 了 推荐 《三 体 》 系 列 读 
物 ， 更 不 是 引导 读者 探索 宇宙 真 诺 ， 甚 至 怀疑 人 生 本 质 ， 而 是 为 了 引 
出 本 章 的 主题 一 一 降 维 。 


机 器 学 习 中 的 数据 维 数 与 现实 世界 的 空间 维度 本 同 末 离 。 在 机 絮 
学 习 中 ， 数 据 通常 需要 被 表示 成 问 量 形式 以 输入 模型 进行 训练 。 但 众 
所 周知 ， 对 回 维 回 量 进行 处 理 和 分 析 时 ， 会 极 大 地 消耗 系统 资源 ， 甚 
至 产生 维度 灾难 。 因 此 ， 进 行 降 维 ， 即 用 一 个 低 维 度 的 回 量 表示 原始 
高 维度 的 特征 束 显 得 万 为 重要 。 和 负 见 的 降 维 方法 有 主 成 分 分 析 、 线 性 
判别 分 析 、 等 距 上 映射、 局 部 线性 藤 入 、 拉 普 拉 斯 特征 映射 、 局 部 保留 
投影 等 。 本 章 将 选取 比较 经 典 的 主 成 分 分 析 和 线性 判别 分 析 进 行 介绍 
和 对 比 ， 以 便 读 者 更 深入 地 理解 降 维 的 基本 思想 。 


01 PCA 最 大 方差 理论 


场景 描述 


在 机 器 学 习 领 域 中 ， 我 们 对 原始 数据 进行 特征 提取 ， 有 时 会 得 到 
比较 高 维 的 特征 癌 量 。 在 这 些 向 量 所 处 的 高 维 空 间 中 ， 包 含 很 多 的 见 
余 和 噪声 。 我 们 和 希望 通过 降 维 的 方式 来 寻找 数据 内 部 的 特性 ， 从 而 提 
升 特征 表达 能 力 ， 降 低 训练 复杂 度 。 主 成 分 分 析 (Principal 
Components Analysis, PCA) 作为 降 维 中 最 经 典 的 方法 ， 至 今 已 有 100 
多 年 的 历史 ， 它 属于 一 种 线性 、 非 监督 、 全 局 的 降 维 算法 ， 是 面试 中 
经 常 被 问 到 的 问题 。 


知识 点 
PCA， 线 性 代数 


问题 如 何 定 义 主 成 分 ? 从 这 种 定义 出 发 ， 如 何 设计 目标 
函数 使 得 降 维 达到 提取 主 成 分 的 目的 ? 针对 这 个 目标 画 
数 ， 如 何 对 PCA 问 题 进行 求解 ? 


难度 ， 竣 友 交 次 交 
分 析 与 解答 


PCA 前 在 找到 数据 中 的 主 成 分 ， 并 利用 这 些 主 成 分 表征 原始 净 
据 ， 从 而 达到 降 维 的 目的 。 举 一 个 简单 的 例子 ， 在 三 维 空间 中 有 一 系 
列 数据 点 ， 这 些 点 分 布 在 一 个 过 原点 的 平面 上 。 如 末 我 们 用 目 然 坐标 
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只 出 现在 一 个 二 维 平 面 上 ， 如 采 我 们 通过 坐标 系 旋转 变换 使 得 数据 所 
在 平面 与 xy 平面 重合 ， 那 么 我 们 吏 可 以 通过 xy 两 个 维度 表达 原始 数 
据 ， 并 且 没 有 任何 损失 ， 这 样 束 完成 了 数据 的 降 维 。 而 x,y' 两 个 轴 所 
包含 的 信息 就 是 我 们 要 找到 的 主 成 分 。 


但 在 高 维 空间 中 ， 我 们 往往 不 能 像 刚 才 这 样 直观 地 想象 出 数据 的 
分 布 形式 ， 也 束 更 难 精 确 地 找到 主 成 分 对 应 的 轴 是 哪些 。 不 妨 ， 我 们 
先 从 最 简单 的 二 维 数 据 来 看 看 PCA 究 竟 是 如 何 工作 的 ， 如 图 4.1 所 示 。 
10.0 


is 


(a) 二 维 空间 中 经 过 中 心 化 的 一 组 数据 


(b) 该 组 数据 的 主 成 分 
图 4.1 二 维 空间 数据 主 成 分 的 直观 可 视 化 


图 4.1 (a) 是 二 维 空间 中 经 过 中 心 化 的 一 组 数据 ， 我 们 很 容易 看 
出 主 成 分 所 在 的 轴 (以 下 称 为 主轴 ) 的 大 致 方向 ， 即 图 4.1 b) 中 黄 
线 所 处 的 轴 。 因 为 在 黄 线 所 处 的 轴 上 ， 数 据 分 布 得 更 为 分 散 ， 这 也 意 
味 看 数据 在 这 个 方向 上 方差 更 大 。 在 信号 处 理 领域 ， 我 们 认为 信号 具 
BRAT, REHAB, fA SSR RNEER o FR 
比 越 大 意味 看 数据 的 质量 越 好 ， 反 之 ， 信 品 比 越 小 意味 着 数据 的 质量 
越 靶 。 由 此 我 们 不 难 引 出 PCA 的 目标 ， 即 最 大 化 投影 方 芸 ， 也 束 是 让 
数据 在 主轴 上 投影 的 方差 最 大 。 


对 于 给 定 的 一 组 数据 点 {3,V2，…,V}， 其 中 所 有 向 量 均 为 列 向 
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1 
P= 。 我们 知道 ， 向 量 内 积 在 几何 上 表示 为 第 一 个 向 量 投影 到 第 二 
个 向 量 上 的 长 度 ， 因 此 向 量 x 在 @ (单位 方向 向 量 ) 上 的 投影 坐标 可 以 
表示 为 (Xi,@8)=x;@。 所 以 目标 是 找到 一 个 投影 方向 6， 使 得 
,Xs 在 w 上 的 投影 方差 尽 可 能 大 。 易 知 ， 投 影 之 后 均值 为 0 (A 


n 


wire- o=0 
为 N ia N ia ， 这 也 是 我 们 进行 中 心 化 的 意 


义 ) ， 因 此 投影 后 的 方差 可 以 表示 为 


D(x) = ao} =)" 0)" (x70) 


Nn j=l i=l 


(So'x xio) _ 
仔细 一 看 , na 其 实 束 是 样本 协 方差 矩阵 ， 我 们 将 其 写 
作 2。 另 外 ， 由 于 o 是 单位 方向 向 量 ， 即 有 ofwo=1。 因 此 我 们 要 求解 一 
个 最 大 化 问题 ， 可 表示 为 


max{w Xo}, 
st. wo wm=l. 
(4.2) 


引入 拉 格 开 日 乘 子 ， 并 对 wm 求 导 令 其 等 于 0， 便 可 以 推出 3 w= 和 
w， 此 时 


Dx)=wO 2o=4owo=4 
(4.3) 
熟悉 线性 代数 的 读者 马上 就 会 发 现 ， 原 来 ，x 投 影 后 的 方差 就 是 协 

方差 矩阵 的 特征 值 。 我 们 要 找到 最 大 的 方差 也 束 是 协 方 差 矩 阵 最 大 的 
特征 值 ， 最 佳 投影 方向 就 是 最 大 特征 值 所 对 应 的 特征 向 量 。 次 佳 投影 
方向 位 于 最 佳 投影 方向 的 正 交 空间 中 ， 是 第 二 大 特征 值 对 应 的 特征 向 
量 ， 以 此 类 推 。 至 此 ， 我 们 得 到 以 下 几 种 PCA 的 求解 方法 。 

(1) 对 样本 数据 进行 中 心 化 处 理 。 

(2) 求 样本 协 方差 矩阵 。 

(3) 对 协 方差 矩阵 进行 特征 值 分 解 ， 将 特征 值 从 大 到 小 排列 。 


(4) 取 特 征 值 前 d 大 对 应 的 特征 向 量 w@j,wz,…,wq， 通 过 以 下 映射 
将 n 维 样本 映 冉 到 gq 维 


T 
QI X; 
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©, X; 


T 
Oy X, 


(4.4) 


新 的 xi" 的 第 d 维 吏 是 x% 在 第 qd 个 主 成 分 ad 方向 上 的 投影 ， 通 过 选取 
最 大 的 d 个 特征 值 对 应 的 特征 向 量 ， 我 们 将 方差 较 小 的 特征 RE) Hh 
弃 ， 使 得 每 个 n 维 列 向 量 x; 被 映射 为 d 维 列 向 量 x'， 定 义 降 维 后 的 信息 占 
比 为 


(4.5) 
.总 结 与 扩展 . 


至 此 ， 我 们 从 最 大 化 投影 方才 的 角度 解释 了 PCA 的 原理 、 目 标 函 
数 和 求解 方法 。 其 实 ，PCA 还 可 以 用 其 他 思路 进行 分 机 ， 比 如 从 最 小 
回归 误 考 的 角度 得 到 新 的 目标 函数 。 但 最 终 我 们 会 发 现 其 对 应 的 原理 
和 求解 方法 与 本 文中 的 是 等 价 的 。 另 外 ， 由 于 PCA 十 一 种 线性 降 维 方 
法 ， 虽 然 经 典 ， 但 具有 一 定 的 局 限 性 。 我 们 可 以 通过 核 有 映射 对 PCA 进 
行 扩展 得 到 核 主 成 分 分 析 (KPCA) ， 也 可 以 通过 流 形 映射 的 降 维 方 
法 ， 比 如 等 距 映 射 、 局 部 线性 价 入 、 拉 普 拉 斯 特征 映射 等 ， 对 一 些 
PCA 效 果 不 好 的 复杂 数据 集 进行 非 线性 降 维 操作 。 


02 ”PCA 最 小 平方 误差 理论 


场景 描述 

上 一 节 介 绍 了 从 最 大 方 鞭 的 角度 解释 PCA 的 原理 、 目 标 函 数 和 求 
解 方法 。 本 市 将 通过 最 小 平方 误差 的 思路 对 PCA 进 行 推 叶 。 
知识 点 


线性 代数 ， 最 小 平方 误差 


问题 PCA 求 解 的 其 实 是 最 佳 投影 方向 ， 即 一 条 直线 ， 这 
与 数学 中 线性 回归 问题 的 目标 不 谋 而 合 ， 能 否 从 回归 的 角 
度 定 义 PCA 的 目标 并 相应 地 求解 问题 呢 ? 


EE: ik 
分 析 与 解答 


我 们 还 是 考虑 二 维 至 闻 中 的 样本 扣 ， 如 图 4.2 所 未 。 上 一 下 求解 得 
到 一 条 直线 使 得 样本 点 投影 到 该 直线 上 的 方 吉 最 大 。 从 求解 直线 的 思 
路 出 发 ， 很 容易 联想 到 数学 中 的 线性 回归 问题 ， 其 目标 也 是 求解 一 个 
线性 函数 使 得 对 应 直线 能 够 更 好 地 拟 合 样本 点 集合 。 如 果 我 们 从 这 个 
角度 定义 PCA 的 目标 ， 那 么 问题 就 会 转化 为 一 个 回归 问题 。 


顺 着 这 个 思路 ， 在 高 维 空间 中 ， 我 们 实际 上 有 是 要 找到 一 个 d 维 超 平 
面 ， 使 得 数据 点 到 这 个 超 平 面 的 距离 平方 和 最 小 。 以 d=1 为 例 ， 超 平 


面 退化 为 直线 ， 即 把 样本 点 投影 到 最 佳 直线 ， 节 小 化 的 就 是 所 有 点 到 
直线 的 距离 平方 之 和 ， 如 图 4.3 所 示 。 


图 4.2 二 维 空 间 中 经 过 中 心 化 的 一 组 数据 
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B43 ”最 小 化 样本 点 到 直线 的 距离 平方 之 和 
数据 集中 每 个 点 xx 到 d 维 超 平面 D 的 距离 为 


distance(x, ,D) =|| x, 一 x, | 
2 


(4.6) 
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cigs T 
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(4.7) 


其 中 @,T xarxa EoD AE ERRE ° BL, nE ERE ZEW 
这 组 标准 正 交 基 下 的 坐标 。 而 PCA 要 优化 的 目标 为 


n 
。 a j 
arg min) | xx 一 xx Ib, 
l». -Oq k=1 


(4.8) 


~ aT 
由 癌 量 内 积 的 性 质 ， 我 们 知道 XY Xx = XxX， 于 是 将 式 (4.8) 中 
的 每 一 个 距离 展开 
—~ 2 ~T ~ 
lx, 一 xd = (Xi 一 Xe) (Xi — Xi) 
T po el pe co 
=<, X k X et X 
ST ie = aah 
=X; Xr 一 2XL Be, Xr. 
(4.9) 


其 中 第 一 项 的 与 选取 的 W 无 关 ， 是 个 常数 。 将 式 (47) RAR 
(4.9) 的 第 二 项 和 第 三 项 可 得 到 


d 
T- T T 
Xk Xr =X > (a; Xi )O; 
i=l 


(4.10) 
fet ber d T rite T 
X, X, -Seo xo) Se, we, 
i=l j=l 
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(4.11) 
vy A T 一 BY [和 Yop. > VIZ ee 
注意 到 ， 其 中 x Fl; “HRRBKE, MEME BY 

By, oo, =0, 


因此 式 (4.11) 的 交叉 项 中 只 剩 下 d 项 
awe as d d 
Xr Xr = 2 (or x, )@; ) (œ x,)@;) = So Xk OH Xi) 


d d 
= > (oO Xr \(x,"@;) = > OF Xr x @;. 
i=l i=l 


(4.12) 
4 T T 
ez, LO 


- Cosi Lap SARE W x Wags (对 角 线 元 素 
之 和 ) ， 于 是 可 以 将 式 (4.9) 继续 化 简 


d 
se le T T ji 
I| xx — Xy =-20, XX, O, +X, Xr 
i=l 


= —tr(W" x,x,'W)+x,'X,. 


(4.13) 
因此 式 (4.8) 可 以 写成 


n n 
: T n2 T T T 
arg min > || x = b= > (rW xX, W)+x, X,) 
W k=l k=1 


=-) rW" x,x,'W)+C 
k=1 7 


(4.14) 


根据 矩阵 乘法 的 性 质 2 pa we pena eI 
mem IOS) 这 等 价 于 求解 带 约 束 的 优化 问题 
H max tr(W’ XX'W) , 
st. WW =I. 
(4.15) 


如 宁 我 们 对 你 中 的 aq 个 基 ouo…os 依 次 求解 ， 融 会 发 现 和 最 大 方 
差 理论 的 方法 完全 等 价 。 比 如 当 qd=1 时 ， 我 们 实际 求解 的 问题 是 


网 max @' XX’ o, 
四 


st. o'@=l. 
(4.16) 
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数 ， 以 及 常数 名 “下 偏差 ， 但 这 并 不 影响 我 们 对 最 大 值 的 优化 。 
z 总 结 与 扩展 . 
至 此 ， 我 们 从 最 小 平方 误差 的 角度 解释 了 PCA 的 原理 、 目 标 画 数 


和 求解 方法 。 不 难 发 现 ， 这 与 最 大 方 六 角度 殊途同归 ， 从 不 同 的 目标 
函数 出 发 ， 得 到 了 相同 的 求解 方法 。 


03 ”线性 判别 分 析 


场景 描述 


线性 判别 分 析 (Linear Discriminant Analysis, LDA) 是 一 种 有 监 
督学 习 算 法 ， 同 时 经 常 被 用 来 对 数据 进行 降 维 。 它 是 Ronald Fisher 
1936 年 发 明 的 ， 有 些 资 料 上 也 称 之 为 Fisher LDA (Fisher’s Linear 
Discriminant Analysis) 。LDA 是 目前 机 器 学 习 、 数 据 挖 掘 领 域 中 经 典 
且 热 门 的 一 种 算法 。 


相 比 于 PCA，LDA 可 以 作为 一 种 有 监督 的 降 维 算法 。 在 PCA 中 ， 
算法 没有 考虑 数据 的 标签 (类别  ， 只 古 把 原 数 据 映 冉 到 一 些 方差 比 
较 大 的 方向 上 而 已 。 


假设 用 不 同 的 颜色 标注 C)、Cz 两 个 不 同类 别 的 数据 ， 如 图 4.4 所 
示 。 根 据 PCA 算 法 ， 数 据 应 该 映射 到 方差 最 大 的 那个 方 同 ， 亦 即 y 轴 方 
癌 。 但 是 ，C1，C2 两 个 不 同类 别 的 数据 束 会 完全 混合 在 一 起 ， 很 难 区 
分 开 。 所 以 ， 使 用 PCA 算 法 进行 降 维 后 再 进行 分 类 的 效果 会 非常 过。 
但 是 ， 如 果 使 用 LDA 算 法 ， 数 据 会 映射 到 x 轴 方向 。 那 么 ，LDA 算 法 
完 竟 是 如 何 做 到 这 一 点 的 呢 ? 


图 4.4 两 个 不 同类 别 的 数据 


知识 点 
线性 代数 ，LDA 


问题 对 于 具有 类 别 标签 的 数据 ， 应 当 如 何 设计 目标 画 数 
使 得 降 维 的 过 程 中 不 损失 类 别 信息 ? 在 这 种 目标 下 ， 应 当 
如 何 进行 求解 ? 


IERE: AAA 
分 析 与 解答 


LDA 首 先是 为 了 分 类 服务 的 ， 因 此 只 要 找到 一 个 投影 方向 wa， 使 
得 投影 后 的 样本 尽 可 能 按照 原始 类 别 分 开 。 我 们 不 妨 从 一 个 位 单 的 二 


分 类 问题 出 发 ， 有 Ci:、Cs 两 个 类 别 的 样本 ， 两 类 的 均值 分 别 为 


m=> 9x ix 

= o's 

Nit, MSG .我 们 希望 投影 之 后 两 类 之 间 的 距离 尽 
可 能 大 ， 距 离 表示 为 


D(C,,C,) =|| 44 — 4 Ib 


(4.17) 
tm, MERA PEON LBA, M =o", 
=O" hp， 因此 需要 优化 的 问题 为 

max || oO (1 =) |b, 
st. @'@=1. 
(4.18) 


容易 发 现 ， 当 @ 方 向 与 (py-p2) 一 致 的 时 候 ， 该 距离 达到 最 大 
值 ， 例 如 对 图 4.5 (a) 的 黄 棕 两 种 类 别 的 样本 点 进行 降 维 时 ， 寿 按照 
最 大 化 两 类 投影 中 心 距离 的 准则 ， 会 将 样本 点 投影 到 下 方 的 黑 线 上 。 
但 是 原本 可 以 被 线性 划分 的 两 类 样本 ， 经 过 投影 后 有 了 一 定 程度 的 重 
登 ， 这 显然 不 能 使 我 们 满意 。 


我 们 希望 得 到 的 投影 结果 如 图 4.5 (b) Aas, 虽然 两 类 的 中 心 在 
投影 之 后 的 距离 有 所 减 小 ， 但 确 使 投影 之 后 样本 的 可 区 分 性 提高 


仔细 观察 两 种 投影 方式 的 区 别 ， 可 以 发 现 ， 在 图 4.5 (b) 中 ， 投 
影 后 的 样本 点 似乎 在 每 一 类 中 分 布 得 更 为 集中 了 ， 用 数学 化 的 语言 描 
述 整 古 每 类 内 部 的 方 莽 比 左 图 中 更 小 。 这 就 引出 了 LDA 的 中 心思 想 
最 大 化 类 间距 离 和 最 小 化 类 内 距离 。 


2 2 6 
(a) 最 大 化 两 类 投影 中 心 距离 准则 下 得 到 的 分 类 结果 


-2 2 6 


(b) 使 得 投影 后 样本 区 分 性 更 高 的 投影 方式 
图 4.5 ”两 种 不 同 的 投影 方向 与 投影 后 的 分 类 结果 


在 前 文中 我 们 已 经 找到 了 使 得 类 间距 离 尽 可 能 大 的 投影 方式 ， 现 
在 只 需要 同时 优化 类 内 方差 ， 使 其 尽 可 能 小 。 我 们 将 整个 数据 集 的 类 
内 方差 定义 为 各 个 类 分 别 的 方 莹 之 和 ， 将 目标 函数 定义 为 类 间距 离 和 
类 内 距离 的 比值 ， 于 是 引出 我 们 需要 最 大 化 的 目标 


| o (4—4) Ib 
D, +D, 


max J(@) = 
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其 中 为 单位 同 量 ，D;，D, 分 别 表示 两 类 投影 后 的 方差 


D = >) (x-w AU) = 


XEC1 


ya (x — 1)(x— m) @ 


xeC 


D, = Zo (x- u, )\(x- Hy) @ 


xeC, 


此 Jo) 可 以 写成 


o (u 一 上) — M o 
Jlo es h A 
OES OE HE HO 


SE SLE TEBE EES, = (4 — Ma Cy -所 ) ， 类 内 散 度 矩阵 
Ss, = > -p(x u)" 


a 。 则 式 (4.22) 可 以 写 为 
@ Ss a 
J(@) = 
w= o'S o 


w 


我 们 要 最 大 化 J(o@)， 只 需 对 @ 求 俩 导 ， 并 令 导数 等 于 零 


T 
0@ 2 EOL 
a(o) _ 0@ 0@ 
do (o Sa) 


ll 
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(4.19) 
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(4.22) 


(4.23) 


(4.24) 


于 是 得 出 
(@'S,,@)S,@ = (@' S,0)S,,@ 
(4.25) 
FA 4 tal HO — or SE Al LTS, Mo Spo ENA, BIS 
A= J(@)= 
o 5$,8， 于 是 可 以 把 式 (4.25) 写成 如 下 形式 : 
S,@=AS,@ (4.26) 
整理 得 ， 
S S50 = AO 
(4.27) 


从 这 里 我 们 可 以 看 出 ， 我 们 最 大 化 的 目标 对 应 了 一 个 矩阵 的 特征 
值 ， 于 是 LDA 降 维 变 成 了 一 个 求 矩阵 特征 回 量 的 问题 。J(o) 束 对 应 了 
FER Sy 1Sp 最 大 的 特征 值 ， 而 投影 方向 束 是 这 个 特征 值 对 应 的 特征 癌 


里 


对 于 二 分 类 这 一 问题 ， 由 于 Sg= (4-4) -所 ) ， 因 此 Sao 的 方向 
始终 与 (m) 一 致 ， 如 果 只 考虑 o 的 方向 ， 不 考虑 其 长 度 ， 可 以 得 
Slo = S (4 一 Ap) 。 换 名 话说， 我们 只 需要 求 样 本 的 均值 和 类 内 方 
差 ， 就 可 以 马上 得 出 最 佳 的 投影 方向 o。 这 便 是 Fisher 在 1936 年 提出 的 
线性 判别 分 析 。 


总 结 与 扩展 


至 此 ， 我 们 从 最 大 化 类 间距 离 、 最 小 化 类 内 距离 的 思想 出 发 ， 推 
导出 了 LDA 的 优化 目标 以 及 求解 方法 。Fisher LDA 相 比 PCA 更 善于 对 
有 类 别 信息 的 数据 进行 降 维 处 理 ， 但 它 对 数据 的 分 布 做 了 一 些 很 强 的 
假设 ， 例 如， 每 个 类 数据 都 是 高 斯 分 布 、 各 个 类 的 协 方差 相等 。 尽 管 


这 些 假设 在 实际 中 并 不 一 定 完全 满足 ， 但 LDA 已 被 证 明 是 非常 有 效 的 
一 种 降 维 方法 。 主 要 是 因为 线性 模型 对 于 噪声 的 鲁 棒 性 比较 好 ， 但 由 
于 模型 简单 ， 表 达能 力 有 一 定局 限 性 ， 我 们 可 以 通过 引入 核 画 数 扩展 


LDA 方 法 以 处 理 分 布 较为 复杂 的 数据 。 


04 ”线性 判别 分 析 与 主 成 分 分 析 


场景 描述 


同样 作为 线性 降 维 方法 ，PCA 是 有 监督 的 降 维 算法 ， 而 LDA 走 无 
监督 的 降 维 算法 。 虽 然 在 原理 或 应 用 方面 二 者 有 一 定 的 区 别 ， 但 写 从 
这 两 种 方法 的 数学 本 质 出 发 ， 我 们 不 难 发 现 二 者 有 很 多 共通 的 特性 。 


知识 点 
线性 代数 ，PCA，LDA 


问题 LDA 和 PCA 作 为 经 典 的 降 维 算法 ， 如 何 从 应 用 的 角 
度 分 析 其 原理 的 异同 ? 从 数学 推导 的 角度 ， 两 种 降 维 算法 
在 目标 画 数 上 有 何 区 别 与 联系 ? 


难度 :女友 六 云南 
分 析 与 解答 


首先 将 LDA 扩 展 到 多 类 高 维 的 情况 ， 以 和 问题 1 中 PCA 的 求解 对 
应 。 假 设 有 N 个 类 别 ， 并 需要 最 终 将 特征 降 维 至 qd 维 。 因 此 ， 我 们 要 找 
到 一 个 d 维 投影 超 平面 大 ={@1,8,,…,@4}， 使 得 投影 后 的 样本 点 满足 
LDA 的 目标 一 一 最 大 化 类 间距 离 和 最 小 化 类 内 距离 。 


回顾 两 个 散 度 和 矩阵 ， 类 内 散 度 矩阵 Se EO PO 多 在 类 别 增加 
至 NN 时 仍 满 足 定义 ‘ TO Z Bl PR a) AYR |] a FE S, > (u — By )( 4 - m,)" 


FER ATE Da CIA TR Roa ° AGES REA OA, H 
中 Mpa 分 别 表示 标 绿 黄 三 类 样本 的 中 心 ，1 表 示 这 三 个 中 心 的 均值 
(也 即 全 部 样本 的 中 心 ) ，Sw 表 示人 第 i 类 的 类 内 散 度 。 我 们 可 以 定义 
一 个 新 的 矩阵 S,， 来 表示 全 局 整体 的 散 度 ， 称 为 全 局 散 度 窍 阵 


S, =X -Wp)" 


(4.28) 


图 4.6 三 类 样本 的 分 布 情况 
如 采 把 全 局 散 度 定 义 为 类 内 散 度 与 类 间 散 度 之 和 ， 即 Sr=So+Sw， 
那么 类 间 散 度 矩 阵 可 表示 为 
S,=S,-S, 


-> -OOG -w -Y -u-u 


-$| Ze u(x- u)" Le-m- | 


1 xeC; xeC; 
N 
j=l 


=m, (u; - (4; -u 


(4.29) 


其 中 mj 古 第 j 个 类 别 中 的 样本 个 数 ，N 是 总 的 类 别 个 数 。 从 式 (4.29) 
可 以 看 出 ， 类 间 散 度 表示 的 就 古 每 个 类 别 中心 到 全 局 中 心 的 一 种 加 权 
距离 。 我 们 最 大 化 类 间 散 度 实 际 上 优化 的 是 每 个 类 别 的 中 心经 过 投影 
后 离 全 局 中 心 的 投影 足够 远 。 


根据 LDA 的 原理 ， 可 以 将 最 大 化 的 目标 定义 为 


tr(W' SW) 


Ae) irW'S,W). 


(4.30) 


PWET Se RH Bee RGF TE, «W? Ww=T， 根 据 问题 2 和 问题 3 中 的 部 
结论 ， 我 们 可 以 推导 出 最 大 化 JW) 对 应 了 以 下 广义 特征 值 求解 的 问 


其 
分 
题 


S,0=AS,0. 
(4.31) 
求解 最 佳 投 影 平面 玉 = {@1,@8;,…,@4} 即 求解 $。 8 矩阵 特征 值 前 d 
大 对 应 的 特征 向 量 组 成 的 矩阵 ， 这 就 将 原始 的 特征 空间 投影 到 了 新 的 d 
维 空间 中 。 至 此 我 们 得 到 了 与 PCA 步 骤 类 似 ， 但 具有 多 个 类 别 标签 高 
维 数 据 的 LDA 求 解 方法 。 


(1) 计算 数据 集中 每 个 类 别 样本 的 均值 癌 量 万 ， 及 总 体 均值 向 量 


(2) 计算 类 内 散 度 矩阵 $,,， 全 局 散 度 矩阵 S.,， 并 得 到 类 间 散 度 甜 
RE S, = S,-S, 0 


(3) ITERE SS 进行 特征 值 分 解 ， 将 特征 值 从 大 到 小 排列 。 


(4) 取 特 征 值 前 d 大 的 对 应 的 特征 向 量 @,@,,…,@z， 通 过 以 下 映 
BRE EAE AER AY Bl dE 


(4.32) 


从 PCA 和 LDA 两 种 降 维 方法 的 求解 过 程 来 看 ， 它 们 确实 有 着 很 大 
的 相似 性 ， 但 对 应 的 原理 却 有 所 区 别 。 


首先 从 目标 出 发 ，PCA 选 择 的 是 投影 后 数据 方 郑 最 大 的 方向 。 由 
于 它 古 无 监督 的 ， 因 此 PCA 假 设 方差 越 大 ， 信 息 量 越 多 ， 用 主 成 分 来 
表示 原始 数据 可 以 去 除 见 余 的 维度 ， 达 到 降 维 。 而 LDA 选 择 的 是 投影 
后 类 内 方 老 小 、 类 间 方 老大 的 方 同 。 其 用 到 了 类 别 标签 信息 ， 为 了 找 
到 数据 中 具有 判别 性 的 维度 ， 使 得 原始 数据 在 这 些 方向 上 投影 后 ， 不 
同类 别 尽 可 能 区 分 开 。 


举 一 个 简单 的 例子 ， 在 语音 识别 中 ， 我 们 想 从 一 段 音频 中 提取 出 
人 的 语音 信号 ， 这 时 可 以 使 用 PCA 先 进行 降 维 ， 过 滤 掉 一 些 固定 频率 
(方差 较 小 ) 的 背景 噪声 。 但 如 果 我 们 的 需求 是 从 这 段 音 频 中 区 分 出 
声音 属于 哪个 人 人， 那么 我 们 应 该 使 用 LDA 对 数据 进行 降 维 ， 使 每 个 人 
的 语音 信号 具有 区 分 性 。 


另外 ， 在 人 脸 识 别 领 域 中 ，PCA 和 LDA 都 会 被 频繁 使 用 。 基 于 
PCA 的 人 脸 识别 方法 也 称 为 特征 脸 (Eigenface) 方法 ， 该 方法 将 人 脸 
图 像 按 行 展 开 形 成 一 个 高 维 向 量 ， 对 多 个 人 脸 特 征 的 协 方差 矩阵 做 特 
征 值 分 解 ， 其 中 较 大 特征 值 对 应 的 特征 同 量 具有 与 人 脸 相 似 的 形状 ， 
故 称 为 特征 脸 。Eigenface for Recognition 一 文中 将 人 脸 用 7 个 特征 脸 表 
示 ( 见 图 4.7) ， 于 是 可 以 把 原始 65536 维 的 图 像 特征 瞬间 降 到 7 维 ， 人 
脸 识别 在 降 维 后 的 空间 上 进行 。 然 而 由 于 其 利用 PCA 进 行 降 维 ， 一 般 
情况 下 保留 的 是 最 佳 描 述 特征 〈 主 成 分 ) ， 而 非 分 类 特征 。 如 果 我 们 
想 要 达到 更 好 的 人 脸 识 别 效 果 ， 应 该 用 LDA 方 法 对 数据 集 进行 降 维 ， 
使 得 不 同人 脸 在 投影 后 的 特征 具有 一 定 区 分 性 。 


图 4.7 


从 训练 数据 
得 到 特征 脸 


i > Ba 


基于 PCA 的 降 维 方法 ， 得 到 7 个 特征 


从 应 用 的 角度 ， 我 们 可 以 掌握 一 个 基本 的 原则 一 一 对 无 监督 的 任 
务 使 用 PCA 进 行 降 维 ， 对 有 监督 的 则 应 用 LDA。 


AST Re 


至 此 ， 我 们 从 数学 原理 、 优 化 目标 以 及 应 用 场景 的 角度 对 比 了 
PCA 和 LDA 这 两 种 经 典 的 线性 降 维 方法 ， 对 于 非 线 性 数据 ， 可 以 通过 
核 映 冉 等 方法 对 二 者 分 别 进行 扩展 以 得 到 更 好 的 降 维 效果 。 关 于 特征 
脸 这 一 降 维 应 用 ， 有 兴趣 的 读者 可 以 拜读 最 经 典 的 Eigenface 论 文 外 ， 
更 好 地 理解 降 维 算法 的 实际 应 用 。 


第 5 章 ” 非 监 督学 习 


在 实际 工作 中 ， 我 们 经 常会 遇 到 这 样 一 类 问题 ， 给 机 器 输入 大 量 
的 特征 数据 ， 并 期 望 机 器 通过 学 习 找 到 数据 中 存在 的 某 种 共性 特征 或 
者 结构 ， 亦 或 是 数据 之 间 存 在 的 某 种 关联 。 例 如 ， 视 频 网 站 根据 用 户 
的 观看 行为 对 用 户 进行 分 组 从 而 建立 不 同 的 推荐 策略 ， 或 是 寻找 视频 
播放 是 否 流畅 与 用 户 是 否 退 订 之 间 的 关系 等 。 这 类 问题 被 称 作 “ 非 监督 
学 习 "问题 ， 它 并 不 是 像 监督 学 习 那样 希望 预测 某 种 输出 结果 。 


相 比 于 监督 学 习 ， 非 监督 学 习 的 输入 数据 没有 标签 信息 ， 需 要 通 
过 算法 模型 来 挖掘 数据 内 在 的 结构 和 模式 。 非 监督 学 习 主 要 包含 两 大 
类 学 习 方 法 ， 数据 聚 类 和 特征 变量 关联 。 其 中 ， 良 类 算法 往往 是 通过 
多 次 从 代 来 找到 数据 的 最 优 分 割 ， 而 特征 变量 关联 则 是 利用 各 种 相关 
性 分 析 方 法 来 找到 变量 之 间 的 关系 。 


01 KYRA 


场景 描述 


SCPE TR) EL» E = RY Se RAL ee >) BT SE 
分 类 问题 ， 即 根据 一 些 已 给 定 类 别 的 样本 ， 训 练 某 种 分 类 器 ， 使 得 它 
能 够 对 类 别 未 知 的 样本 进行 分 类 。 与 分 类 问题 不 同 ， 聚 类 是 在 事先 并 
不 知道 任何 样本 类 别 标签 的 情况 下 ， 通 过 数据 之 间 的 内 在 关系 把 样本 
划分 为 耕 干 类 别 ， 使 得 同类 别 样本 之 间 的 相似 度 高 ， 不 同类 别 之 间 的 
样本 相似 度 低 。 图 5.1 是 一 个 二 维 空间 中 样本 取 类 的 示意 图 ， 图 5.1 

(a) 展示 了 所 有 样本 在 空间 中 的 分 布 ， 图 5.1 (b) Rea SRR AR 
(不 同 颜色 代表 不 同类 别 ) 。 
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: + 5 
a Dos 
E a | : 
1 NEA wees | -is a 
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355-29 s a s o s a e SSS 
(a) 样本 在 空间 中 的 分 布 (b ) 聚 类 的 结果 


图 5.1 二 维 空 间 中 的 聚 类 


分 类 问题 属于 监督 学 习 的 范畴 ， 而 聚 类 则 是 非 监 督学 习 。K 均 值 
RR (K-Means Clustering) 是 最 基础 和 最 常用 的 聚 类 算法 。 它 的 基本 
思想 是 ， 通 过 迭代 方式 寻找 K 个 复 (Cluster) 的 一 种 划分 方案 ， 使 得 
聚 类 结果 对 应 的 代价 函数 最 小 。 特 别 地 ， 代 价 函 数 可 以 定义 为 各 个 样 
本 距离 所 属 复 中 心 点 的 误差 平方 和 


M 
J(e, 4) =È || x; — Hy IP 
i=l 


(5.1) 
FLX ACFE BITEEAR, cex, TERT AIR, RRES EAU, M 
是 样本 总 数 。 
知识 点 


KV (RAE, ISODATAR I, EM 算法 (Expectation- 
Maximization Algorithm， 最 大 期 望 算 法 ) 


问题 1 简 述 K 均 值 算法 的 具体 步骤 。 


MERE: terrors 
分 析 与 解答 
K 均 值 聚 类 的 核心 目标 是 将 给 定 的 数据 集 划分 成 K 个 复 ， 并 给 出 每 
个 数据 对 应 的 篮 中 心 点 。 算 法 的 具体 步 又 朱 述 如 下 : 
(1) 数据 预 处 理 ， 如 归 一 化 、 离 群 点 处 理 等 。 
(2) 随机 选取 K 个 簇 中 心 ， 记 为 4 M Me? o 


zu ` wy. J(c, 4) = min min | X; — 4, 上 
(3) 定义 代价 画 数 nmin lm IP 


(4) 4t=0,1,2,... 为 迭代 步 数 ， 重 复 下 面 过 程 直 到 J 了 收敛 : 


。 对 于 每 一 个 样本 x;， 将 其 分 配 到 距离 最 近 的 入 


ci” — argmin || x; pe |È. 
p 


(5.2) 
© WFR PRR, EINTR AJRA PD 
Wy? -agmi > || x,- “|? 

(5.3) 


KARAER, fox al 没有 达到 最 小 值 ， 那 么 首先 固 
定 簇 中心 {p}， 调 整 每 个 样 例 x; 所 属 的 类 别 c; 来 让 J 函数 减少 ， 然 后 固 
定 {cj}， 调 整 禾 中 心 {j} 使 ] 城 小 。 这 两 个 过 程 交 蔡 循 环 ，. 单 调 递减 : 
当 J 递 减 到 最 小 值 时 ，{j} 和 {cj} 也 同时 收 线 。 


图 5.2 是 K-means 算 法 的 一 个 遂 代 过 程 示 意图 。 首 先 ， 给 定 二 维 空 
间 上 的 一 些 样本 点 ( 见 图 5.2 (a) ) ， 直 观 上 这 些 点 可 以 被 分 成 两 
类 ， 接 下 来 ,初始化 两 个 中 心 点 (图 5.2 (b) 的 棕色 和 黄色 又 子 代 表 
中 心 点 ) ， 并 根据 中 心 点 的 位 置 计算 每 个 样本 所 属 的 簇 (图 5.2 (c) 
用 不 同 颜色 表示 ) ; 然后 根据 每 个 复 中 的 所 有 点 的 平均 值 计 算 新 的 中 
心 点 位 置 ( 见 图 5.2 (a) ) ; 图 5.2 (e) 和 图 5.2 (f) 展示 了 新 一 轮 的 
ARERR; 在 经 过 两 轮 的 迭代 之 后 ， 算 法 基本 收敛 。 


(d) Ce) (fy 


图 5.2 K 均 值 聚 类 算法 的 迭代 过 程 示 意图 


问题 开 均 值 算法 的 优 缺 点 是 什么 ? 如 何 对 其 进行 调 优 ? 


MEE: tok sk 


分 析 与 解答 


K 均 值 算法 有 一 些 缺点 ， 例 如 受 初 值 和 离 群 点 的 影响 每 次 的 绪 
不 稳定 、 结 打通 间 不 是 全 局 最 优 而 是 局 部 最 优 解 、 无 法 很 好 地 解决 数 
据 艇 分 布 差别 比较 大 的 情况 《比如 一 类 是 另 一 类 样本 数量 的 100 倍 ) > 
不 太 适 用 于 离散 分 类 等 。 但 古 瑕 不 掩 瑜 ，K 均 值 案 类 的 优点 也 是 很 明 
显 和 突出 的 ， 主 要 体现 在 :对 于 大 数据 集 ，K 均 值 诊 类 算法 相对 是 可 
伸缩 和 高 效 的 ， 它 的 计算 复 洒 度 古 O(NKD) 接 近 于 线性 ， 其 中 NN 古 数据 
对 和 象 的 数目 ，K 有 古 案 类 的 簇 数 ，t 是 迭代 的 轮 数 。 尽 管 算 法 经 第 以 局 部 
最 优 结 束 ， 但 一 般 情况 下 达到 的 局 部 最 优 已 经 可 以 满足 案 类 的 需求 。 


K 均 值 算法 的 调 优 一 般 可 以 从 以 下 几 个 角度 出 发 。 


(1) 数据 归 一 化 和 离 群 点 处 理 。 


K 均 值 聚 类 本 质 上 走 一 种 基于 欧式 距离 度量 的 数据 划分 方法 ， 均 
值 和 方差 大 的 维度 将 对 数据 的 聚 类 结果 产生 决定 性 的 有 影响， 所 以 未 做 
归 一 化 处 理 和 统一 单位 的 数据 是 无 法 直接 参与 运算 和 比较 的 。 同 时 ， 
离 群 点 或 者 少量 的 噪声 数据 吏 会 对 均值 产生 较 大 的 影响 ， 导 致 中 心 侦 
移 ， 因 此 使 用 K 均 值 育 类 算法 之 前 通 利 需要 对 数据 做 预 处 理 。 


(2) 合理 选择 K 值 。 


天 值 的 选择 是 K 均 值 聚 类 最 大 的 问题 之 一 ， 这 也 是 K 均 值 聚 类 算法 
的 主要 缺点 。 实 际 上 ， 我 们 希望 能 够 找到 一 些 可 行 的 办 法 来 弥补 这 一 
缺点 ， 或 者 说 找到 开 值 的 合理 估计 方法 。 但 是 ， 天 值 的 选择 一 般 基 于 经 
验 和 多 次 实验 结果 。 例 如 采用 手 肝 法， 我 们 可 以 芝 试 不 同 的 K 值 ， 并 
将 不 同 K 值 所 对 应 的 损失 男 数 画 成 折线 ， 横 轴 为 K 的 取 值 ， 纵 轴 为 误 关 
平方 和 所 定义 的 损失 函数 ， 如 图 5.3 所 示 。 
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图 5.3 均值 算法 中 K 值 的 选取 ， 手 肘 法 
由 图 可 见 ， 天 值 越 大 ， 距 离 和 越 小 ， 并 且 ， 当 K=3 时 ， 存 在 一 个 扬 


点 ， 就 像 人 的 肘 部 一 样 ， 当 KE(13) 时 ， 曲 线 急 速 下 降 ， 当 K>3 时 ， 曲 
线 趋 于 平稳 。 手 肘 法 认为 抛 点 束 是 K 的 最 佳 值 。 


FNAME, RARERBA DL, AULT RTX 
提出 了 一 些 更 先进 的 方法 ， 其 中 包括 比较 有 名 的 Gap Statistic 方 法 占 。 
Gap Statistic 方 法 的 优点 是 ， 不 再 需要 肉眼 判断 ， 而 只 需要 找到 最 大 的 
Gap statistic 所 对 应 的 K 即 可 ， 因 此 该 方法 也 适用 于 批量 化 作业 。 在 这 
里 我 们 继续 使 用 上 面 的 损失 函数 ， 当 分 为 K 复 时 ， 对 应 的 损失 函数 记 
HD, ° Gap Statistic 定 义 为 


Gap(K)=E(logD,)-logD,, ， 
(5.4) 


其 中 EdogDN 征 logDk 的 期 望 ， 一 般 通 过 蒙特 卡 洛 模拟 产生 。 我 们 在 样 
本 所 在 的 区 域内 按照 均匀 分 布 随机 地 产生 和 原始 样本 数 一 样 多 的 随机 
样本 ， 并 对 这 个 随机 样本 做 KK 均值， 得 到 一 个 Di 重复 多 次 就 可 以 计 
算出 EdogD 的 近似 值 。 那 么 Gap(O 有 什么 物理 台 义 昵 ? 它 可 以 视 为 
随机 样本 的 损失 与 实际 样本 的 损失 之 差 。 试 想 实际 样本 对 应 的 最 佳 篮 
数 为 K， 那 么 实际 样本 的 损失 应 该 相对 较 小 ， 随 机 样本 损失 与 实际 样 
本 损失 之 其 也 相应 地 达到 最 小 值 ， 从 而 Gap(K) 取 得 最 大 值 所 对 应 的 K 
值 就 是 最 佳 的 复数 。 根 据 式 (5.4) 计算 K =1,2,.…,9 所 对 应 的 Gap 
Statistic， 如 图 5.4 所 示 。 由 图 可 见 ， 当 K=3 时 ，Gap() 取 值 最 大 ， 所 以 
最 佳 的 复数 是 K=3。 


Gap (K) 


图 5.4 ” K 均 值 算法 中 K 值 的 选取 : Gap Statistic 方 法 
(3) 采用 核 函数 。 


采用 核 男 数 是 男 一 种 可 以 尝试 的 改进 方向 。 传 统 的 欧式 距离 度量 
方式 ， 使 得 K 均 值 算法 本 质 上 假设 了 各 个 数据 篮 的 数据 具有 一 样 的 先 
验 概 率 ， 并 呈现 球形 或 者 高 维 球形 分 布 ， 这 种 分 布 在 实际 生活 中 并 不 
溃 见 。 面 对 非 吓 的 数据 分 布 形状 时 ， 可 能 需要 引入 核 函 数 来 优化 ， 这 
时 算法 又 称 为 核 K 均 值 算法 ， 是 核 聚 类 方法 的 一 种 9。 核 聚 类 方法 的 
主要 思想 是 通过 一 个 非 线性 映射 ， 将 输入 空间 中 的 数据 点 映射 到 高 位 
的 特征 空间 中 ， 并 在 新 的 特征 空间 中 进行 聚 类 。 非 线性 映射 增加 了 数 
据点 线性 可 分 的 概率 ， 从 而 在 经 典 的 案 类 算法 失效 的 情况 下 ， 通 过 引 
入 核 画 数 可 以 达到 更 为 准确 的 聚 类 结果 。 


问题 3 针对 KK 均值 算法 的 缺点 ， 有 哪些 改进 的 模型 ? 


难度 ， 太 交友 六 六 
分 析 与 解答 


K 均 值 算 法 的 主要 缺点 如 下 。 


(1) 需要 人 工 预 先 确定 初始 K 值 ， 且 该 值 和 真实 的 数据 分 布 未 必 
吻合 。 


(2) K 均 值 只 能 收敛 到 局 部 最 优 ， 效 果 受 到 初始 值 很 大 。 
(3) 易 受 到 噪点 的 影响 。 
(4) 样本 点 只 能 被 划分 到 单一 的 类 中 。 


= K-means++ 算 法 


K 均 值 的 改进 算法 中 ， 对 初始 值 选 择 的 改进 是 很 重要 的 一 部 分 。 
而 这 类 算法 中 ， 最 具 影 响 力 的 当 属 K-means++ 算 法 。 原 始 K 均 值 算法 最 
开始 随机 选取 数据 集中 K 个 点 作为 紊 类 中 心 ， 而 K-means++ 按 照 如 下 的 
思想 选取 天 个 聚 类 中 心 。 假 设 已 经 选取 了 mn 个 初始 聚 类 中 心 
(O<n<K) ， 则 在 选取 第 n+1 个 聚 类 中 心 时 ， 距 离 当前 n 个 聚 类 中 心 越 
远 的 点 会 有 更 高 的 概率 被 选 为 第 n+1 个 聚 类 中 心 。 在 选取 第 一 个 聚 类 
中 心 (n=1) 时 同样 通过 随机 的 方法 。 可 以 说 这 也 符合 我 们 的 直觉 ， 
案 类 中 心 当 然 古 互相 离 得 越 远 越 好 。 当 选择 完 初 始点 后 ，K- 
means++ 后 续 的 执行 和 经 典 K 均 值 算法 相同 ， 这 也 是 对 初始 值 选择 进行 
改进 的 方法 等 共同 点 。 


ISODATA 算 法 


当 K 值 的 大 小 不 确定 时 ， 可 以 使 用 ISODATA 算 法 。ISODATA 的 全 
称 是 迭代 自 组 织 数 据 分 析 法 。 在 K 均 值 算 法 中 ， 聚 类 个 数 K 的 值 需 要 预 
先 人 为 地 确定 ， 并 日 在 整个 算法 过 程 中 无 法 更 改 。 而 当 人 过 到 高 维度 、 
海量 的 数据 集 时 ， 人 们 往往 很 难 准确 地 估计 出 K 的 大 小 。ISODATA 算 
法 就 是 针对 这 个 问题 进行 了 改进 ， 它 的 思想 也 很 直观 。 当 属于 某 个 类 
别 的 样本 数 过 少时 ， 把 该 类 别 去 除 ;， 当 属于 某 个 类 别 的 样本 数 过 多 、 
分 散 程度 较 大 时 ， 把 该 类 别 分 为 两 个 了 于 类 别 。ISODATA 算 法 在 K 均 值 
算法 的 基础 之 上 增加 了 两 个 操作 ， 一 是 分 裂 操 作 ， 对 应 着 增加 聚 类 中 
心 数 ;二 是 合并 操作 ， 对 应 着 减少 聚 类 中 心 数 。ISODATA 算 法 是 一 个 
比较 常见 的 算法 ， 其 缺点 是 需要 指定 的 参数 比较 多 ， 不 仅仅 需要 一 个 
参考 的 聚 类 数量 K,_， 还 需要 制定 3 个 阐 值 。 下 面 介 绍 ISODATA 算 法 的 
各 个 输入 参数 。 


(1) 预期 的 聚 类 中 心 数目 K。 在 ISODAIA 运 行 过 程 中 聚 类 中 心 
数 可 以 变化 ， 玉 是 一 个 用 户 指定 的 参考 值 ， 该 算法 的 聚 类 中 心 数目 变 
动 范围 也 由 其 决定 。 具 体 地 ， 最 终 输出 的 聚 类 中 心 数 目 常见 范围 是 从 
开 的 一 半 ， 到 两 倍 K，。 


(2) 每 个 类 所 要 求 的 最 少 样本 数目 Nanin。 如 果 分 裂 后 会 导致 某 个 
子 类 别 所 包 舍 样本 数目 小 于 该 国 值 ， 束 不 会 对 该 类 别 进行 分 裂 操 作 。 


(3) 最 大 方差 Sigma。 用 于 控制 某 个 类 别 中 样本 的 分 散 程度 。 当 
‘ai 
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(4) 两 个 聚 类 中 心 之 间 所 人 允许 最 小 距离 D，。 如 果 两 个 类 靠 得 非 
常 近 〈 即 这 两 个 类 别 对 应 聚 类 中 心 之 间 的 距离 非常 小 ， 小 于 该 阔 值 
时 ， 则 对 这 两 个 类 进行 合并 操作 。 

如 果 希 望 样本 不 划分 到 单一 的 类 中 ， 可 以 使 用 模糊 C 均 值 或 者 高 
斯 混合 模型 ， 高 斯 混合 模型 会 在 下 一 节 中 详细 讲述 。 


问题 4 证 明 K 均 值 算法 的 收敛 性 。 


TEE: tok dey 
分 析 与 解答 


首先 ， 我 们 需要 知道 K 均 值 聚 类 的 迭代 算法 实际 上 是 一 种 最 大 期 
望 算法 (Expectation-Maximization algorithm) ， 简 称 EM 算 法 。EM 算 
法 解决 的 是 在 概率 模型 中 含有 无 法 观测 的 隐 舍 变量 情况 下 的 参数 估计 
问题 。 假 设 有 mm 个 观察 样本 ， 模 型 的 参数 为 9， 最 大 化 对 数 似 然 函 数 可 
以 写成 如 下 形式 


0 = argmax J ogP(x” | 0) 
0 i=l : 
(5.5) 
当 概率 模型 中 含有 无 法 被 观测 的 隐 含 变量 时 ， 参 数 的 最 大 似 然 估计 变 
为 
0 = argmax yogy P(x” ,Z0 | 0) 
9 i fi) , 


(5.6) 


由 于 z0 是 未 知 的 ， 无 法 直接 通过 最 大 似 然 估 计 求 解 参 数 ， 这 时 束 知 要 
i (Ze) =1 
利用 FM 算法 来 求解 。 假 设 z@ 对 应 的 分 布 为 Q(CzO)， 并 满足 22C ) 
。 利用 Jensen 不 等 式 ， 可 以 得 到 
P(x ,20 | 0) 


yogy Px",20 |0) = yyogyO 人) 一 一 
i=l xO) i=l 2) Q; (z ) 


m ; P x® 2 0 
>Y oo a 


O(Z?) 
(5.7) 


P(x ,z|6) Rp 
要 使 上 式 中 的 等 号 成 立 ， aes: ee o ARa, Bi 
足 22C -1 Ai. =F PROZO PO 219) A nA KEREN 
数 记 为 roxl9)。 当 等 式 成 立时 ， 我 们 相当 于 为 待 优化 的 函数 找到 了 一 个 
然后 通过 最 大 化 这 个 下 界 可 以 使 得 竺 优化 函数 向 更 好 的 


图 5.5 是 一 个 6 为 一 维 的 例子 ， 其 中 棕色 的 曲线 代表 我 们 待 优化 的 
画 数 ， 记 为 K6)， 优 化 过 程 即 为 找到 使 得 K6) 取 值 最 大 的 6。 在 当前 6 的 
MAF ( 即 图 中 绿色 的 位 置 ) ， 可 以 计算 2 )=PC pe ,9)， 此 时 
不 等 式 右 侧 的 画 数 ( 记 为 r(x|9)) 给 出 了 优化 画 数 的 一 个 下 界 ， 如 图 中 
蓝 色 曲线 所 示 ， 其 中 在 0 处 两 条 曲线 的 取 值 时 相等 的 。 接 下 来 找到 使 得 
r(x|9) 最 大 化 的 参数 9 ， 即 图 中 红色 的 位 置 ， 此 时 f(0") 的 取 值 比 K0) ( 绿 
色 的 位 置 处 ) 有 所 提升 。 可 以 证 明 ，f(0")>r(x|9)=f(0)， 因 此 画 数 是 单调 
H, WAPP, Zz’ |10)e (0, 了) 从 而 函数 是 有 界 的 。 根 据 画 数 单调 有 界 
必 收 敛 的 性 质 ，EM 算 法 的 收敛 性 得 证 。 但 是 EM 算法 只 保证 收敛 到 局 
部 最 优 解 。 当 画 数 为 非 凸 时 ， 以 图 5.5 为 例 ， 如 果 初 始 化 在 左边 的 区 域 
时 ， 则 无 法 找到 右 侧 的 高 点 。 


f(9) 


P(x |0) 


r (x |0) 


AI5.5 ”K 均 值 算法 的 收敛 性 


由 上 面 的 推导 ，EM 算 法 框架 可 以 总 结 如 下 ， 由 以 下 两 个 步 又 区 蔡 
进行 直到 收敛 。 


(1) EDR: 计算 隐 变 量 的 期 望 
O (z) = P(z x 0). 


(2) MER: 最 大 化 
O = argmax > 20 gel Vege 


x Po” 
7 (2 a 


(5.9) 


剩 下 的 事情 就 是 说 明 K 均 值 算法 与 EM 算法 的 关系 了 。K 均 值 算法 
等 价 于 用 EM 算法 求解 以 下 含 隐 变 量 的 最 大 似 然 问题 : 


exp(- || x- 4, |), I| x- 4 l= min, || x— 4% ll 


Pos Manon) A 
0 »||x—y, ,> min, || x- 4, lz, 


(5.10) 


其 中 Ze {1,2,..., 名 是 模型 的 隐 变 量 。 直 观 地 理解 ， 就 是 当 样本 x 离 第 k 
个 簇 的 中 心 点 距离 最 近 时 ， 概 率 正 比 于 exp(-l|x-4 此)， 否 则 为 0 。 


在 E 步 又 ， 计 算 


1, || x THO = min, | X— Hk lle 


Ole Pl | a ol YS (i) : 
0, || x” — to [b> min, || x- 44 lla. 
(5.11) 
iX SIF EK EB IE PT FS xO] BRITA Fez o 


在 M 步 又 ， 找 到 最 优 的 参数 = Mar Mat, TEAM Be Be 


= P(x 218) 
0 = argmax ) (z log ——— 
0 22o Q, z”) 


(5.12) 


Z | P(x®,2z"|0) < j 
(z Jog ——— 4 = const -Y` || x — u IP 
DI ) g Q, (2) 2, | Hy ) | | 


i=l zi 
(5.13) 
因此 ， 这 一 步骤 等 同 于 找到 最 优 的 中 心 点 ,化 ，… 人 Ar， 使 得 损失 画 数 
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QI Hao Tags, BIT RENO; RATE CAGE, FELIS 
个 个/ 对 应 的 最 优 中 心 点 ， BT DL BEE PH EES, CS 
K 均 值 算法 中 根据 当前 秘 的 分 配 更 新 聚 关中 心 的 步骤 是 等 同 的 。 


02 ”高 斯 混合 模型 


场景 描述 


高 斯 混合 模型 (Gaussian Mixed Model, GMM) 也 是 一 种 常见 的 
案 类 算法 ， 与 K 均 值 算法 类 似 ， 同 样 使 用 了 EM 算法 进行 迭代 计算 。 高 
斯 混合 模型 假设 每 个 艇 的 数据 都 是 符合 高 斯 分 布 〈 又 叫 正 态 分 布 ) 
的 ， 当 前 数据 呈现 的 分 布 就 是 各 个 艇 的 高 斯 分 布 稚 加 在 一 起 的 结 


图 5.6 是 一 个 数据 分 布 的 样 例 ， 如 果 只 用 一 个 高 斯 分 布 来 拟 合 图 中 
的 数据 ， 图 中 所 示 的 椭圆 即 为 高 斯 分 布 的 二 倍 标 准 差 所 对 应 的 椭圆 。 
直观 来 说 ， 图 中 的 数据 明显 分 为 两 族 ， 因 此 只 用 一 个 高 斯 分 布 来 拟 和 
苹 不 太 合 理 的 ， 和 需要 推广 到 用 多 个 高 斯 分 布 的 县 加 来 对 数据 进行 拟 
合 。 图 5.7 是 用 两 个 高 斯 分 布 的 登 加 来 拟 合 得 到 的 结果 。 这 束 引 出 了 高 
斯 混合 模型 ， 即 用 多 个 高 斯 分 布 图 数 的 线形 组 合 来 对 数据 分 布 进行 拟 
合 。 理 论 上 ， 高 斯 宰 合 模型 可 以 拟 合 出 任意 类 型 的 分 布 。 


图 5.6 ”高 斯 混合 模型 样 例 (用 一 个 混合 分 量 来 拟 合 ) 


高 斯 分 布 ， 高 斯 混合 模型 ，EM 算 法 


Fel 高 基 泥人 模型 的 核心 思想 是 什么 ? 它 是 如 何 先 代 计 
J? 


难度 ， 竣 友 交 次 交 
分 析 与 解答 


说 起 高 斯 分 布 ， 大 家 者 不 阳 生 ， 通 党 身高 、 分 数 等 都 大 致 符合 高 
斯 分 布 。 因 此 ， 当 我 们 研究 各 类 数据 时 ， 假 设 同 一 类 的 数据 符合 高 斯 
分 布 ， 也 是 很 简单 目 然 的 假设 ， 当 数据 事实 上 有 多 个 类 ， 或 者 我 们 项 
望 将 数据 划分 为 一 些 簇 时 ， 可 以 假设 不 同 簇 中 的 样本 各 自 服从 不 同 的 
高 斯 分 布 ， 由 此 得 到 的 缀 类 算法 称 为 高 期 ; 


昆 合 模型 。 


高 斯 混合 模型 的 核心 思想 是 ， 假 设 数据 可 以 看 作 从 多 个 高 斯 分 布 
中 生成 出 来 的 。 在 该 假设 下 ， 每 个 单独 的 分 模型 都 是 标准 高 斯 模型 ， 
其 均值 jy 和 方 靶 是 得 估计 的 参数 。 此 外 ， 每 个 分 模型 都 还 有 一 个 参数 
7i， 可 以 理解 为 权重 或 生成 数据 的 概率 。 高 斯 混合 模型 的 公式 为 


P(x) = DAN | Hi2) 


(5.14) 


高 斯 混合 模型 是 一 个 生成 式 模型 。 可 以 这 样 理 解数 据 的 生成 过 
程 ， 假 设 一 个 最 简单 的 情况 ， 即 只 有 两 个 一 维 标准 高 斯 分 布 的 分 模型 
N(0,1) 和 N(5,1)， 其 权重 分 别 为 0.7 和 0.3。 那 么 ， 在 生成 第 一 个 数据 点 
时 ， 移 按照 权重 的 比例 ， 随 机 选择 一 个 分 布 ， 比 如 选择 第 一 个 高 斯 分 
布 ， 接 着 从 N(0,1) 中 生成 一 个 点 ， 如 -0.5， 便 是 第 一 个 数据 点 。 在 生成 
第 二 个 数据 点 时 ， 随 机 选择 到 第 二 个 高 斯 分 布 N(5,1)， 生 成 了 第 二 个 
点 4.7。 如 此 循环 执行 ， 便 生成 出 了 所 有 的 数据 点 。 


然而 ， 通 常 我 们 并 不 能 直接 得 到 高 斯 混合 模型 的 参数 ， 而 是 观察 
到 了 一 系列 数据 点 ， 给 出 一 个 类 别 的 数量 K 后 ， 和 希望 求 得 最 佳 的 K 个 高 
斯 分 模型 。 因此， 高 斯 混合 模型 的 计算 ， 便 成 了 最 佳 的 均值 ny， 方差 
>、 权 重 x 的 寻找 ， 这 类 问题 通常 通过 最 大 似 然 估计 来 求解 。 遗 憾 的 
古 ， 此 问题 中 直接 使 用 最 大 似 然 估计 ， 得 到 的 古 一 个 复杂 的 非 证 函 
数 ， 目 标 函 数 是 和 的 对 数 ， 难 以 展开 和 对 其 求 俩 导 。 


在 这 种 情况 下 ， 可 以 用 上 一 节 已 经 介绍 过 的 EM 算法 框架 来 求解 该 
优化 问题 。 EM 算法 古 在 最 大 化 目标 函数 时 ， 先 固定 一 个 变量 使 整体 函 
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过 程 如 下 。 


首先 ， 初 始 随机 选择 各 参数 的 值 。 然 后 ， 重 复 下 述 两 步 ， 直 到 收 
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不 知道 每 个 数据 总 冤 竟 是 哪个 高 斯 分 布 生 成 的 。 所 以 每 次 循环 时 ， 先 
固定 当前 的 高 斯 分 布 不 变 ， 获 得 每 个 数据 点 由 各 个 高 斯 分 布 生 成 的 概 
率 。 然 后 固定 该 生成 概率 不 变 ， 根 据 数据 所 和 生成 概率 ， 获 得 一 个 组 
更 佳 的 高 斯 分 布 。 循 环 往复 ， 直 到 参数 的 不 再 变化 ， 或 者 变化 非常 小 
时 ， 便 得 到 了 比较 合理 的 一 组 高 斯 分 布 。 


高 斯 混合 模型 与 K 均 值 算法 的 相同 点 是 ， 它 们 都 十 可 用 于 只 类 的 
算法 ， 都 需要 指定 K 值 ， 都 是 使 用 EM 算法 来 求解 ， 都 往往 只 能 收敛 于 
局 部 最 优 。 而 它 相 比 于 K 均 值 算法 的 优点 是 ， 可 以 给 出 一 个 样本 属于 
某 类 的 概率 是 多 少 ; 不 仅仅 可 以 用 于 聚 类 ， 还 可 以 用 于 概率 密度 的 倍 
计 ; 并 且 可 以 用 于 生成 新 的 样本 点 。 


03” 自 组 织 映射 神经 网 络 


场景 描述 


自 组 织 映射 神经 网 络 (Self-Organizing Map, SOM) 是 无 监督 学 
习 方 法 中 一 类 重要 方法 ， 可 以 用 作 聚 类 、 高 维 可 视 化 、 数 据 压 缩 、 特 
征 提取 等 多 种 用 途 。 在 深度 神经 网 络 大 为 流行 的 今天 ， 谈 及 目 组 织 映 
射 神经 网 络 依然 是 一 件 非 常 有 意义 的 事情 ， 这 主要 是 由 于 自 组 织 映射 
神经 网 络 融 入 了 大 量 人 脑 神 经 元 的 信号 处 理 机 制 ， 有 着 独特 的 结构 特 
点 。 该 模型 由 耸 兰 赫 尔 邓 基 大 学 教授 Teuvo Kohonen 于 1981 年 提出 ， 
此 也 被 称 为 Kohonen 网 络 。 


知识 后 
目 组 织 映射 神经 网 络 


问题 1 自 组 织 映射 神 经 网 络 是 如 何 工作 的 ? 它 与 K 均 值 算 
法 有 何 区 别 ? 


难度 ， 克 交友 六 六 
分 析 与 解答 


生物 学 研究 表明 ， 在 人 脑 的 感知 通道 上 ， 人 神经 元 组 织 是 有 序 排列 
的 ; 同时， 大 脑 皮层 会 对 外 界 特定 时 空 信息 的 输入 在 特定 区 域 产生 兴 
奋 ， 而 且 相 类 似 的 外 界 信 息 输 入 产生 对 应 兴奋 的 大 脑 皮 层 区 域 也 连续 
映像 的 。 例 如 ， 生 物 视 网 膜 中 有 许多 特定 的 细胞 对 特定 的 图 形 比 较 敏 
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经 元 也 接近 ; 在 听觉 通道 上 ， 神 经 元 在 结构 排列 上 与 频率 的 关系 十 分 
密切 ， 对 于 某 个 频率 ， 特 定 的 伸 经 元 具有 最 大 的 啊 应 ， 位 置 相 邻 的 神 
经 元 具有 相近 的 频率 特征 ， 而 远离 的 神经 元 具有 的 频率 特征 差别 也 较 
大 。 大 脑 皮 层 中 神经 元 的 这 种 响应 特点 不 古 完 天 安排 好 的 ， 而 是 通过 
后 天 的 学 习 自 组 织 形成 的 。 


在 生物 神经 系统 中 ， 还 存在 着 一 种 侧 抑制 现象 ， 即 一 个 神经 细胞 
兴奋 后 ， 会 对 周围 其 他 神经 细胞 产生 抑制 作用 。 这 种 抑制 作用 会 使 神 
经 细胞 之 间 出 现 竞 争 ， 其 结 采 是 某 些 获胜 ， 而 另 一 些 则 失败 。 表 现形 
式 是 获胜 神经 细胞 兴奋 ， 失 败 神经 细胞 抑制 。 自 组 织 神经 网 络 就 是 对 
上 述 生 物 神经 系统 功能 的 一 种 人 工 神 经 网 络 模拟 。 


目 组 织 映 冉 神 经 网 络 本 质 上 古 一 个 两 层 的 神经 网 络 ， 包 含 输入 层 
和 输出 层 E) 。 输 入 层 模 拟 感 知 外 界 输入 信息 的 视网膜 ， 输出 
层 模 拟 做 出 啊 应 的 大 脑 皮 层 。 输 出 层 中 神经 元 的 个 数 通 常 是 案 类 的 个 
数 ， 代 表 每 一 个 需要 聚 成 的 类 。 训 练 时 采用 “竞争 学 习 ” 的 方式 ， 每 个 
输入 的 样 例 在 输出 层 中 找到 一 个 和 它 最 匹配 的 节点 ， 称 为 激活 节点 ， 
也 叫 winning neuron; 紧 接 着 用 随机 樟 度 下 降 法 更 新 激活 世 点 的 参数 ; 
同时 ， 和 激活 节点 临近 的 点 也 根据 它们 距离 激活 市 点 的 远近 而 适当 地 
更 新 参数 。 这 种 竞争 可 以 通过 神经 元 之 间 的 横向 抑制 连接 〈 负 反馈 路 
径 ) 来 实现 。 目 组 织 映 射 神经 网 络 的 输出 层 节 点 是 有 折 扑 关系 的 。 这 
个 拓扑 天 系 依据 需求 确定 ， 如 采 想 要 一 维 的 模型 ， 那 么 隐藏 斑点 可 以 
EERIE”: 如 采 想 要 二 维 的 拓扑 关系 ， 那 么 就 行 成 一 个 “二 维 平 面 
阵 ”， 如 图 5.8 所 示 。 也 有 更 高 维度 的 拓扑 关系 的 ， 比 如 “三 维 机 格 
Be”, 但 并 不 常见 。 


图 5.8 ”SOM 常见 的 两 种 网 络 结构 


假设 输入 空间 是 D 维 ， 输 入 模式 为 *= i=l., HA cp 
经 元 j 之 间 在 计算 层 的 连接 权重 为 w= /= 了 …,N,i=b.…,D}， 其 中 NN 是 神 
经 元 的 尽数 。 目 组 织 映 射 神经 网 络 的 目 组 织 学 习 过 程 可 以 归纳 为 以 下 
儿 个 子 过程 。 


(1) 初始 化 。 所 有 连接 权重 都 用 小 的 随机 值 进行 初始 化 。 
(2) 竞争 。 神 经 元 计算 每 一 个 输入 模式 各 自 的 判别 画 数 值 ， 并 宣 
布 具 有 最 小 判别 画 数 值 的 特定 神经 元 为 胜利 者 ， 其 中 每 个 神经 元 j 的 关 
d (x)= > (x, -w, ,)° 
T OO BOM, 
(3) 合作 。 获 胜 神经 元 100 决 定 了 兴奋 神经 元 拓扑 邻 域 的 空间 位 
置 。 确 定 激活 结 点 J0) 之 后 ， 我 们 也 希望 更 新 和 它 临 近 的 节点 。 更 新 各 


了 
Tie = a|- 一 一 


度 计 算 如 下 : 200) /其 中 Si 表示 竞争 层 神经 元 ;和 j 之 间 


o(t) = 0,ex -+ 
的 距离 PPU re 条 时 间 衰减 ， 简 单 地 说 ， 临 近 的 节点 距离 越 
远 ， 更 新 的 程度 要 打 更 大 折扣 。 


(4) 适应 。 适 当 调整 相关 兴奋 神经 元 的 连接 权重 ， 使 得 获胜 的 神 
经 元 对 相似 输入 模式 的 后 续 应 用 的 啊 应 增强 : 
Aw, =N) eT, yO 2% -= W;), 
n(t) = no |- 
其 中 依赖 于 时 间 的 学 习 率 定义 为 : Tajo 
(5) 迭代 。 继 续 回 到 步骤 (2) ， 直 到 特征 映射 趋 于 稳定 。 
在 迭代 结束 之 后 ， 每 个 样本 所 激活 的 神经 元 就 是 它 对 应 的 类 别 。 
目 组 织 映 射 神经 网 络 具 有 保 序 映 射 的 特点 ， 可 以 将 任意 维 输入 模 
式 在 输出 层 映 射 为 一 维 或 者 二 维 图 形 ， 并 保持 拓扑 结构 不 变 。 这 种 折 


扑 映 射 使 得 “输出 层 神 经 元 的 空间 位 置 对 应 于 输入 空间 的 特定 域 或 特 
征 ”。 由 其 学 习 过 程 可 以 看 出 ， 每 个 学 习 权 重 更 新 的 效 采 等 同 于 将 获胜 


的 神经 元 及 其 邻近 的 权 回 量 wi 回 输入 回 量 x 移 动 ， 同 时 对 该 过 程 的 迭代 
进行 会 使 得 网 络 的 拓扑 有 序 。 


在 目 组 织 映 射 神经 网 络 中 ， 获 胜 的 神经 元 将 使 得 相关 的 各 权重 向 
更 加 有 利于 它 苋 争 的 方 同调 整 ， 即 以 获胜 神经 元 为 中 心 ， 对 近邻 的 神 
经 元 表现 出 兴 否 性 侧 反 馈 ， 而 对 远 邻 的 神经 元 表现 出 抑制 性 侧 反 馈 ， 
近邻 者 互相 激励 ， 远 邻 者 相互 抑制 。 近 邻 和 远 邻 均 有 一 定 的 范围 ， 对 
更 远 邻 的 神经 元 则 表现 弱 激励 的 作用 。 这 种 交互 作用 的 方式 以 曲线 可 
视 化 则 类 似 于 “ 礁 西 哥 帽 *"， 如 图 5.9 所 示 。 


交互 作用 


侧 向 距离 


图 5.9 ”神经 元 的 激励 交互 方式 
自 组 织 映 射 神经 网 络 与 K 均 值 算 法 的 区 别 如 下 。 


(1) K 均 值 算法 需要 事先 定 下 类 的 个 数 ， 也 就 是 K 的 值 。 而 自 组 
织 映 射 神经 网 络 则 不 用 ， 隐 藏 层 中 的 菜 些 节点 可 以 没有 任何 输入 数据 
属于 它 ， 因 此 案 类 结果 的 实际 族 数 可 能 会 小 于 神经 元 的 个 数 。 而 K 均 
值 算法 受 K 值 设 定 的 影响 要 更 大 一 些 。 


(2) K 均 值 算法 为 每 个 输入 数据 找到 一 个 最 相似 的 类 后 ， 只 更 新 
这 个 类 的 参数 ， 目 组 织 映 里 神经 网 络 则 会 更 新 临近 的 节点 。 所 以 ，K 
均值 算法 受 noise data 的 影响 比较 大 ， 而 目 组 织 映射 神经 网 络 的 准确 性 
可 能 会 比 K 均 值 算法 低 (因为 也 更 新 了 临近 节点 ) 。 


(3) 相 比 较 而 言 ， 自 组 织 映射 神经 网 络 的 可 视 化 比较 好 ， 而 且 具 
有 优雅 的 拓扑 关系 图 。 


a 题 2 怎样 设计 自 组 织 映射 神经 网 络 并 设 定 网 络 训 练 参 


难度 ， 克 交友 立交 
分 析 与 解答 


n 设 定 输出 层 神经 元 的 数量 


输出 层 神经 元 的 数量 和 训练 集 样本 的 类 别 数 相关。 阁 不 清楚 类 别 
数 ， 则 尽 可 能 地 设 定 较 多 的 节点 数 ， 以 便 较 好 地 映射 样本 的 拓扑 结 
构 ， 如 果 分 类 过 细 再 酌情 减少 输出 入 点 。 这 样 可 能 会 市 来 少量 从 未 更 
新 过 权 值 的 “ 死 节 点 ”， 但 一 般 可 通过 重新 初始 化 权 值 来 解决 。 


m 设计 输出 层 节 点 的 排列 


输出 层 的 节点 排列 成 哪 种 形式 取决 于 实际 应 用 的 需要 ， 排 列 形式 
应 尽量 直观 地 反映 出 实际 问题 的 物理 意义 。 例 如 ， 对 于 一 般 的 分 类 问 
题 ， 一 个 输出 节点 能 代表 一 个 模式 类 ， 用 一 维 线 阵 既 结 构 简 单 勾 意义 
明确 ;对 于 颜色 空间 或 者 旅行 路 径 类 的 问题 ， 二 维 平面 则 比较 直观 。 


m 初始 化 权 值 

可 以 随机 初始 化 ， 但 尽量 使 权 值 的 初始 位 置 与 输入 样本 的 大 概 分 
布 区 域 充 分 重合 ， 避 免 出 现 大 量 的 初始 “ 死 下 点 ”。 一 种 简单 易 行 的 方 
法 是 从 训练 集中 随机 抽取 m 个 输入 样本 作为 初始 权 值 。 

m 设计 拓扑 领域 

拓扑 领域 的 设计 原则 是 使 领域 不 断 缩 小 ， 这 样 输出 平面 上 相 邻 神 


经 元 对 应 的 权 回 量 之 间 既 有 区 别 又 有 相当 的 相似 性 ， 从 而 保证 当 获 胜 
斑点 对 某 一 类 模式 产生 最 大 啊 应 时 ， 其 领域 节点 也 能 产生 较 大 啊 应 。 


领域 的 形状 可 以 是正 方形 、 六 边 形 或 者 委 形 。 优 势 领域 的 大 小 用 领域 
的 半径 表示 ， 通 常任 借 经 验 来 选择 。 


m 设计 学 习 率 


学 习 率 是 一 个 递减 的 函数 ， 可 以 结合 拓扑 邻 域 的 更 新 一 起 考虑 ， 
也 可 分 开 考虑 。 在 训练 开始 时 ， 学 习 率 可 以 选取 较 大 的 值 ， 之 后 以 较 
快 的 速度 下 降 ， 这 样 有 利于 很 快 地 捕捉 到 输入 回 量 的 大 致 结构 ， 然 后 
学 习 率 在 较 小 的 值 上 绥 降 至 0 值 ， 这 样 可 以 精细 地 调整 权 值 使 之 符合 输 
入 空间 的 样本 分 布 结构 。 


04 ” 聚 类 算法 的 评估 


场景 描述 


人 具有 很 强 的 归纳 思考 能 力 ， 善 于 从 一 大 堆 碎 片 化 的 事实 或 者 数 
据 中 寻找 普 志 规律， 并 得 到 具有 你 辑 性 的 结论 。 以 用 户 观看 视频 的 行 
为 为 例 ， 可 以 存在 多 种 直观 的 归纳 方式 ， 比 如 从 喜欢 观看 内 容 的 和 角 
度 ， 可 以 分 为 动画 片 、 偶 像 剧 、 科 幻 片 等 ;从 彰 使 用 的 设备 角度 ， 可 
以 分 为 台式 电脑 、 手 机 、 平 板 便 携 式 设备 、 电 视 等 ， 从 使 用 时 间 段 上 
看 ， 有 傍晚 、 中午 、 每 天 、 只 在 周末 观看 的 用 户 ， 等 等 。 对 所 有 用 三 
进行 有 效 的 分 组 对 于 理解 用 户 并 推荐 给 用 户 合适 的 内 容 征 很 重要 的 。 
通常 这 类 问题 没有 观测 数据 的 标签 或 者 分 组 信息 ， 需 要 通过 算法 模型 
来 寻求 数据 内 在 的 结构 和 模式 。 


知识 点 
数据 族 ， 聚 类 算法 评估 指标 


问题 ”以 聚 类 问题 为 例 ， 假 设 没有 外 部 标签 数据 ， 如 何 评 
(AT RARER LA? 


难度 ， 克 交友 立交 
分 析 与 解答 


场景 描述 中 的 例子 束 是 一 个 典型 的 缘 类 问题 ， 从 中 可 以 看 出 ， 数 
据 的 聚 类 依赖 于 实际 需求 ， 同 时 也 依赖 于 数据 的 特征 度量 以 及 评 佑 数 


据 相 似 性 的 方法 。 相 比 于 监督 学 习 ， 非 监督 学 习 通 常 没有 标注 数据 ， 
模型 、 算 法 的 设计 直接 影响 最 终 的 输出 和 模型 的 性 能 。 为 了 评估 不 同 
案 类 算法 的 性 能 优 务 ， 我 们 需要 了 解 音 见 的 数据 簇 的 特点 。 


。 以 中 心 定义 的 数据 族 : 这 类 数据 集合 倾向 于 球形 分 布 ， 通 常 中 心 
被 定义 为 质心 ， 即 此 数据 簇 中 所 有 点 的 平均 值 。 集 合 中 的 数据 到 
中 心 的 距离 相 比 到 其 他 簇 中 心 的 距离 更 近 。 


以 密度 定义 的 数据 篮 : 这 类 数据 集合 呈现 和 周围 数据 族 明 显 不 同 
的 密度 ， 或 稠密 或 和 棉 下。 当 数据 篮 不 规则 或 互相 盘 绕 ， 并 且 有 品 
声 和 离 群 点 时 ， 管 常 使 用 基于 密度 的 艇 定义 。 


以 连通 定义 的 数据 篮 : 这 类 数据 集合 中 的 数据 点 和 数据 点 之 间 有 
连接 关系 ， 整 个 数据 艇 表现 为 图 结构 。 该 定义 对 不 规则 形状 或 者 
缠绕 的 数据 艇 有 效 。 


以 概念 定义 的 数据 族 ， 这 类 数据 集合 中 的 所 有 数据 皮具 有 茶 种 共 


同性 质 。 


由 于 数据 以 及 需求 的 多 样 性 ， 没 有 一 种 算法 能 够 适用 于 所 有 的 数 
据 类 型 、 数 据 艇 或 应 用 场景 ， 似 乎 每 种 情况 都 可 能 需要 一 种 不 同 的 评 
佑 方法 或 度量 标准 。 例 如 ，K 均 值 聚 类 可 以 用 误差 平方 和 来 评 佑 ， 但 
是 基于 密度 的 数据 篮 可 能 不 是 球形 ， 误 差 平方 和 则 会 失效 。 在 许多 情 
况 下 ， 判 断案 类 算法 结果 的 好 坏 强 烈 依赖 于 主观 解释 。 尽 管 如 此 ， 珍 
类 算法 的 评估 还 是 必需 的 ， 它 是 育 类 分 析 中 十 分 重要 的 部 分 之 一 。 


案 类 评估 的 任务 是 估计 在 数据 集 上 进行 认 类 的 可 行 性 ， 以 及 取 类 
方法 产生 结果 的 质量 。 这 一 过 程 又 分 为 三 个 子 任务 。 
(1) 估计 聚 类 趋势 。 


这 一 步 缀 是 检测 数据 分 布 中 古人 否 存 在 非 随机 的 簇 结构 。 如 果 数 据 
征 基 本 随机 的 ， 那 么 聚 类 的 结 采 也 是 这 无 意义 的 。 我 们 可 以 观察 聚 类 
误 装 是 否 随 聚 类 类 别 数量 的 增加 而 单调 变化 ， 如 末 数 据 是 基本 随机 
的 ， 即 不 存在 非 随 机 篮 结 构 ， 那 么 聚 类 误 兰 随 聚 类 类 别 数 量 增 加 而 变 


化 的 幅度 应 该 较 不 显著 ， 并 且 也 找 不 到 一 个 合适 的 K 对 应 数据 的 真实 


复数 。 


另外 ， 我 们 也 可 以 应 用 霍 普 金 斯 统计 量 (Hopkins Statistic) 来 判 
断 数 据 在 空间 上 的 随机 性 []。 首 先 ， 从 所 有 样本 中 随机 找 n 个 点 ， 记 为 
p1pD2PD， 对 其 中 的 每 一 个 点 六， 都 在 样本 空间 中 找到 一 个 离 它 最 近 
的 点 并 计算 它们 之 间 的 距离 x;,， 从 而 得 到 距离 问 量 xj,x,.…,xj; 然后 ， 
从 样本 的 可 能 取 值 范围 内 随机 生成 n 个 点 ， 记 为 qj,q2…,q9,， 对 每 个 随 
机 生成 的 点 ， 找 到 一 个 离 它 最 近 的 样本 点 并 计算 它们 之 间 的 距离 ， 得 
到 yj,y>,.…y,。 和 霍 普 金 斯 统计 量 太 可 以 表示 为 : 


T 
H = i=1 
> x; + >: Yi 
i=l ET A 


(5.15) 


如 果 样 本 接近 随机 分 布 ， 那 么 2“ 和 2 的 取 值 应 该 比较 接近 ， 即 
H 的 值 接近 于 0.5， 如 果 来 类 趋势 明显 ， 则 随机 生成 的 样本 点 距离 应 该 


远大 于 实际 样本 点 的 距离 ， 即 名" 和。 的 值 接近 于 1 。 


(2) 判定 数据 复数 。 


确定 来 类 趋势 之 后 ， 我 们 需要 找到 与 真实 数据 分 布 最 为 吻合 的 簇 
数 ， 据 此 判定 聚 类 结果 的 质量 。 数 据 复数 的 判定 方法 有 很 多 ， 例 如 手 
肘 法 和 Gap Statistic 方 法 。 需 要 说 明 的 是 ， 用 于 评估 的 最 佳 数据 复数 可 
能 与 程序 输出 的 复数 是 不 同 的 。 例 如 ， 有 些 聚 类 算法 可 以 目 动 地 确定 
数据 的 复数 ， 但 可 能 与 我 们 通过 其 他 方法 确定 的 最 优 数据 复数 有 所 老 


fill ° 


(3) 测定 聚 类 质量 。 


给 定 预 设 的 簇 数 ， 不 同 的 案 类 算法 将 输出 不 同 的 结 末 ， 如 何 判 定 
哪个 聚 类 结 采 的 质量 更 高 呢 ? 在 无 监督 的 情况 下 ， 我 们 可 以 通过 考察 
敌 的 分 离 情 况 和 敌 的 紧 竣 情况 来 评估 聚 类 的 效果 。 定 义 评估 指标 可 以 
展现 面试 者 实际 解决 和 分 析 问 题 的 能 力 。 事 实 上 测量 指标 可 以 有 很 多 
种 ， 以 下 列 出 了 几 种 常用 的 度量 指标 ， 更 多 的 指标 可 以 阅读 相关 文献 


[8] 。 


。 轮廓 系数 :给 定 一 个 态 p， 该 点 的 纶 万 系数 定义 为 


b(p)—a(p) 


= etal OL DPD 


(5.16) 


其 中 a(p) 是 点 p 与 同一 簇 中 的 其 他 点 p’ 之 间 的 平均 距离 ，b(p) 是 点 p 与 男 
一 个 不 同 得 中 的 点 之 间 的 最 小 平均 距离 〈 如 果 有 m 个 其 他 簇 ， 则 只 计算 
和 点 p 最 接近 的 一 篮 中 的 点 与 该 点 的 平均 距离 ) 。a(p) 反 映 的 是 p 所 属 
复 中 数据 的 紧凑 程度 ，b(p) 反 映 的 是 该 篮 与 其 他 临近 簇 的 分 离 程度 。 
显然 ，b(p) 越 大 ，a(p) 越 小 ， 对 应 的 聚 类 质量 越 好 ， 因 此 我 们 将 所 有 点 
对 应 的 轮廓 系数 s(p) 求 平均 值 来 度量 聚 类 结果 的 质量 。 


。 均 方 根 标准 偏差 ( Root-mean-square standard deviation , 
RMSSTD) : 用 来 衡量 聚 结果 的 同 质 性 ， 即 紧凑 程度 ， 定 义 为 


> 5x-a |? }? 


(5.17) 


其 中 Ci 代表 第 i 个 复 ，c 是 该 复 的 中 心 ，xEcCi 代 表 属 于 第 i 企 复 的 一 个 样 
本 点 ，ni; 为 第 i 个 入 的 样本 数量 ，P 为 样本 点 对 应 的 向 量 维 数 。 可 以 看 
出 ,分母 对 点 的 维度 P 做 了 惩罚 ， 维 度 越 高 ， 则 整体 的 平方 距离 度量 


X(n, -1)=n- NC 


ERA ° 4 ， 其 中 m 为 样本 点 的 总 数 ，NC 为 聚 类 簇 的 个 


Be, ENC, EO RARA, WNE 
上 ，RMSSTD 可 以 看 作 是 经 过 归 一 化 的 标准 差 。 


。R 方 (R-Square) : 可 以 用 来 衡量 聚 类 的 差异 度 ， 定 义 为 
Deal 2 2 IP 


RS = xeD 
,x= 
xeD 
(5.18) 


其 中 DD 代表 整个 数据 集 ，c 代 表 数 据 集 D 的 中 心志， 从 而 猎 1 ez 

ee at 艇 时 的 平方 误差 和 。 与 上 一 指标 RMSSTD 中 的 定义 
x-c |P 

相同 代表 将 数据 集聚 类 之 后 的 平方 误差 和 ， 所 以 RS 代 

表 了 和 类 之 后 的 结果 与 聚 类 之 前 相 比 ， 对 应 的 平方 误差 和 指标 的 改进 


幅度 。 


。 改进 的 HubertT 统 计 : 通过 数据 对 的 不 一 致 性 来 评估 聚 类 的 差异 ， 
定义 为 


2 
re- dO) sec, pec Ce) 
n(n—1) 和 2 (x,y) xeC;,yeC} (c; a 


(5.19) 
其 中 4(% PRR EIRY ZIRE, Cape C 代表 点 x 所 在 的 和 
nn 一 


中 心 与 点 y 所 在 的 簇 中 心 c 之 间 的 距离 ， “2” 为 所 有 (wy) 点 对 的 个 
数 ， 因 此 指标 相当 于 对 每 个 点 对 的 和 做 了 归 一 化 处 理 。 理 想 情况 下 ， 
对 于 每 个 点 对 (x,y)， 如果 deey) 越 小 ， 对 应 的 eavec Co Ci ride) 
(特别 地 ， 当 它们 属于 同一 个 率 类 艇 时 ，deGwecj (6557)=0 ， 当 
dy) 越 大 时 ，decsec (067) 的 取 值 也 应 当 越 大 ， 所 以 fT 值 越 大 说 明 聚 
类 的 结果 与 样本 的 原始 距离 越 吻 合 ， 也 就 是 聚 类 质量 越 高 。 


此 外 ， 为 了 更 加 合理 地 评估 不 同 案 类 算法 的 性 能 ， 通 第 还 需要 人 
为 地 构造 不 同类 型 的 数据 集 ， 以 观察 案 类 算法 在 这 文 些 数据 集 上 的 效 
果 ， 几 个 第 见 的 例子 如 图 5.10 一 图 5.14 所 示 。 
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图 5.10 ”观察 聚 类 误差 是 否 随 聚 类 类 别 数量 的 增加 而 单调 变化 
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图 5.14 
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第 6 章 ”概率 图 模型 


如 果 用 一 个 词 来 形容 概率 图 模型 (Probabilistic Graphical Model) 
的 话 ， 那 就 是 “优雅 >。 对 于 一 个 实际 问题 ， 我 们 希望 能 够 挖 据 隐 舍 在 
数据 中 的 知识 。 概 率 图 模型 构建 了 这 样 一 幅 图 ， 用 观测 结 点 表示 观测 
到 的 数据 ， 用 隐 含 结 点 表示 潜在 的 知识 ， 用 边 来 指 述 知识 与 数据 的 相 
nee Sa 图 获得 一 个 概率 分 布 ， 非 常 “ 优 雅 ” 地 人 解 
决 了 问题 。 


概率 图 中 的 节点 分 为 隐 含 节点 和 观测 节点 ， 边 分 为 有 向 边 和 无 向 
边 。 从 概率 论 的 角度 ， 节 点 对 应 于 随机 变量 ， 边 对 应 于 随机 变量 的 依 
赖 或 相关 关系 ， 其 中 有 疝 边 表示 单 同 的 依赖 ， 无 向 边 表示 相互 依赖 天 


ZIN 


概率 图 模型 分 为 贝 叶 斯 网 络 (Bayesian Network) 和 马尔 可 夫 网 络 
(Markov Network) 两 大 类 。 贝 叶 斯 网 络 可 以 用 一 个 有 问 图 结构 表 
示 ， 马 尔 可 夫 网 络 可 以 表示 成 一 个 无 回 图 的 网 络 结构 。 更 详细 地 说 ， 
概率 图 模型 包括 了 朴素 贝 叶 斯 模型 、 最 大 烂 模 型 、 隐 杞 尔 可 夫 模 型 、 
条 件 随 机 场 、 主 题 模型 等 ， 在 机 局 学 习 的 诸多 场景 中 都 有 着 广泛 的 应 
用 o 


01 概率 图 模型 的 联合 概率 分 布 


场景 描述 


概率 图 模型 最 为 “精彩 ”的 部 分 束 是 能 够 用 简 涪 清晰 的 图 示 形 式 表 
达 概 率 生 成 的 关系 。 而 通过 概率 图 还 原 其 概率 分 布 不 仅 古 概率 图 模型 
最 重要 的 功能 ， 也 是 掌握 概率 图 模型 最 重要 的 标准 。 本 届 考查 面试 者 
能 否 根 据 贝 叶 斯 网 络 和 马尔 可 夫 网 络 的 概率 图 还 原 其 联合 概率 分 布 。 


ALARA 
概率 图 ， 贝 叶 斯 网 络 ， 马 尔 可 夫 网 络 


能 否 写 出 图 6.1 (a) 中 贝 叶 斯 网 络 的 联合 概率 分 
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(a) 贝 叶 斯 网 络 (b) 马尔 可 夫 网 络 


图 6.1 概率 图 模型 


分 析 与 解答 


由 图 可 见 ， 在 给 定 A 的 条 件 下 B 和 C 是 条 件 独 立 的 ， 基 于 条 件 概率 
的 定义 可 得 


P(B,C| A) _ P(BIA)P(CIA) 


P(C| A,B) = 
P(BIA) P(B\A) 
=P(C| A), 
(6.1) 
同 理 ， 在 给 定 B 和 C 的 条 件 下 A 和 D 是 条 件 独 立 的 ， 可 得 
Poan oe _ PIB, OPO, C) 
~*~ P(AIB,C) P(AIB,C) 
=P(D|B,C), 
(6.2) 
由 式 (6.1) 和 式 (6.2) 可 得 联合 概率 
P(A,B,C,D)=P(A)P(BIA)P(C|A,B)P(DIA,B,C) 
=P(A)P(BIA)P(C|A)P(DIB,C) . 
(6.3) 


= 能 否 写 出 图 6.1 (b) 中 马尔 可 夫 网 络 的 联合 概率 分 


难度 : Here 


分 析 与 解答 


在 马尔 可 去 网 络 中 ， 联 合 概率 分 布 的 定义 为 
Po =F Troe) 


(6.4) 


KAC x 
其 中 C 为 图 中 最 大 团 所 构成 的 集合 2 Le AF, 用 
来 保证 PCO 是 被 正确 定义 的 概率 ，9 是 与 团 0 对 应 的 势 醒 数 。 势 画 数 
是 非 负 的 ， 并 且 应 该 在 概率 较 大 的 变量 上 取得 较 大 的 值 ， 例 如 指数 本 


又 


poro)=e 0 
(6.5) 
其 中 
Hda > wrt, > Om 
aa eed 
(6.6) 


对 于 图 中 所 有 节 扩 x={X1,X2)…Xn} 所 构成 的 一 个 子 集 ， 如 末 在 这 个 子 集 
中 ， 任 意 两 点 之 间 部 存在 边 相 连 ， 则 这 个 子 集 中 的 所 有 节点 构成 了 一 
个 团 。 如 果 在 这 个 子 集中 加 入 任意 其 他 节点 ， 都 不 能 构成 一 个 团 ， 则 
称 这 样 的 于 集 构成 了 一 个 最 大 团 。 


在 图 6.1 所 示 的 网 络 结构 中 ， 可 以 看 到 (A,B)、(A,C)、(B,D)、(C,D) 
均 构 成 团 ， 同 时 也 是 最 大 团 。 因 此 联合 概率 分 布 可 以 表示 为 


1 
P(A, B,C,D) “7M (A, B)@, (A, C)p, (B, D)g,(C, D) 


如 果 采 用 式 (6.5) 定义 的 指数 函数 作为 势 夯 数 ， 则 有 


H(A,B,C, D) =a AB +a, AC +a, BD +a,CD +p A+ f,B+f,C+ B,D. 


P(4,B,C,D) = E AE 


(6.8) 


02 ”概率 图 表示 


场景 描述 


上 一 市 考 碍 了 面试 者 通过 概率 图 还 原 模型 联合 概率 分 布 的 能 
本 小 市 反 其 道 而 行 之 ， 考 查 面试 者 能 否 给 出 模型 的 概率 图 表示 。 


知识 点 
FRUIRE, MER, KARRE 


Pt 解释 朴素 贝 叶 斯 模型 的 原理 ， 并 给 出 概率 图 模型 
ZN e 


IERE: AAA 
分 析 与 解答 


朴素 贝 叶 斯 模型 通过 预测 指定 样本 属于 特定 类 别 的 概率 P(yilx) 来 
预测 该 样本 的 所 属 类 别 ， 即 


y= tana Px] 
(6.10) 
P(yjlx) 可 以 写成 


PCy )PO,) 
P 


P(y,|x) = (x) 


(6.11) 


其 中 x=(xj,Xz,…,xn) 为 样本 对 应 的 特征 向 量 ，P(%) 为 样本 的 先 验 概率 。 对 
于 特定 的 样本 x 和 任意 类 别 y;，P(x) 的 取 值 均 相 同 ， 并 不 会 影响 P(y;x) 取 
值 的 相对 大 小 ， 因 此 在 计算 中 可 以 被 忽略 。 假 设 特征 xj,x2,…,xn 相 互 独 
立 ， 可 以 得 到 ; 


Pix «P(xly) PO=Py Py). -Pry DPO) - 
(6.12) 


其 中 P(xjly;)，P(xzby),…,P(xnly))， 以 及 PQyi) 可 以 通过 训练 样本 统计 得 
到 。 可 以 看 到 后 验 概率 P(xjly;) 的 取 值 决 定 了 分 类 的 结 琳 ， 并 且 任 意 特 
征 x 都 由 y 的 取 值 所 影响 。 因 此 概率 图 模型 可 以 用 图 6.2 表 示 。 


图 6.2 ”朴素 贝 叶 斯 模型 的 概率 图 模型 

注意 ， 图 6.2 的 表示 为 表 式 记 法 。 盘 式 记 法 是 一 种 简洁 的 概率 图 模 
型 表示 方法 ， 如 果 变 量 y 同 时 对 xj,x2,…,xw 这 N 个 变量 产生 影响 ， 则 可 以 
简 记 成 图 6.2 的 形式 。 


问题 ARAM RA Re, FRA Re Re 
ZR e 


IERE: AAA 
分 析 与 解答 


信息 是 指 人 们 对 事物 理解 的 不 确定 性 的 降低 或 消除 ， 而 精 束 是 不 
PETER RE Be, MEK, ANE TEE RK © BAM REE A 
SOTA “MEM, fa EV ce TELE ARR FF ERA SR Pk I Bc 
大 的 模型 ， 即 不 确定 性 最 大 的 模型 。 在 平时 生活 中 ， 我 们 也 会 有 意 无 
意 地 使 用 最 大 燃 的 准则 ， 例 如 入 们 第 说 的 鸡蛋 不 能 放 在 一 个 篮子 里 ， 
忠 是 指 在 事情 具有 不 确定 性 的 时 候 ， 我 们 倾 辐 于 壬 试 它 的 多 种 可 能 
性 ， 从 而 降低 结果 的 风险 。 同 时 ， 在 摸 清 了 事情 背后 的 某 种 规律 之 
后 ， 可 以 加 入 一 个 约束 ， 将 不 符合 规律 约束 的 情况 排除 ， 在 剩 下 的 可 
能 性 中 去 寻找 使 得 炳 最 大 的 决策 。 


假设 离散 随机 变量 x 的 分 布 是 Po ， 则 关于 分 布 P 的 糯 定 义 为 


H(P) =—> P(x) log P(x) 


(6.13) 
Ay DS HM xAR MSS PT RA, te ES AE PER 


给 定 离散 随机 变量 x 和 y 上 的 条 件 概 率 分 布 POylx)， 定 义 在 条 件 概 率 
TAB EBA EEA 


H(P) =-)P(x)P(y | x) log PO | x) 


(6.14) 


其 中 Bl) 为 样本 在 训练 数据 集 上 的 经 验 分 布 ， 即 x 的 各 个 取 值 在 样本 中 
出 现 的 频率 统计 。 


Ba Wiel eA we BA] BE AB P(x), EAR PPP) AL 
ERK ° TEXTURES ICA ANAT BARA A P(x) 
符合 均匀 分 布 的。 那么 当 我 们 有 了 训练 数据 集 之 后 呢 ? 我 们 布 望 从 中 


找到 一 些 规律 ， 从 而 消除 一 些 不 确定 性 ， 这 时 就 需要 用 到 特征 函数 
fy) ° 特征 玉 数 f 搬 述 了 输入 x 和 输出 y 之 间 的 一 个 规律 ， 例 如 当 x=y 
时 ，ftx,y) 等 于 一 个 比较 大 的 正 数 。 为 了 使 学 习 到 的 模型 P(ylx) 能 够 正确 
捕捉 训练 数据 集中 的 这 一 规律 (特征) ， 我 们 加 入 一 个 约束 ， 使 得 特 
征 函 数 fx;y) 天 于 经 验 分 布 P(x;y) 的 期 望 值 与 天 于 模型 P(ylx) 和 经 验 分 布 P 
(x) 的 期 望 值 相 等 ， 即 


Es(f)=E,(f) 


(6.15) 
EH, AERAN KT AA TH P(X) A BT BAA 
E3(f)= > P(x yS y) 
(6.16) 
f(x,y) 天 于 模型 P(ylx) 和 经 验 分 布 P(x) 的 期 望 值 计 算 公 式 为 
EN = LP@)PO CD 
(6.17) 


综 上 ， 给 定 训练 数据 集 T7={G6;,7),G6; 芒 )…xw,7w»， 以 及 M 个 特征 画 
BUG OLY) i=l, 25M}, OKIE ALA A) SN PARC TE 


max H(P) = -X PPO | x)log PO | x), 
st, Es(f)=E,(f), Vi=1,2,...,M, 
PO |x)=1. 


(6.18) 
RAZ Ja AT DGS Bl se A eR IAT UW 


P,(y|x) = Soe Swi ») 


(6.19) 


BS, BOR ERAS Za ASS ENS ew, TEP (yx) © 
从 概率 图 模型 的 角度 理解 ， 我 们 可 以 看 到 P(y|x) 的 表达 形式 非常 类 似 
于 势 画 数 为 指数 函数 的 马尔 可 夫 网 络 ， 其 中 变量 x 和 y 构 成 了 一 个 最 大 
团 ， 如 图 6.3 所 示 。 


x 


图 6.3 ”最 大 粹 模型 的 概率 图 模型 


03 ”生成 式 模型 与 判别 式 模型 


场景 描述 


生成 式 模 型 和 判别 式 模型 的 区 别 是 机 顺 学 习 领 域 非常 重要 的 基础 
知识 ， 也 是 经 常用 来 考察 面试 者 的 面 弃 题 ， 但 能 准确 区 分 开 二 者 并 不 
征 一 件 非常 容易 的 事情 ， 本 节 和 希望 给 读者 一 个 正确 的 认识 。 


ALVA 
生成 式 模 型 ， 判 别 式 模型 


问题 常见 的 概率 图 模型 中 ， 哪 些 是 生成 式 模型 ， 哪 些 是 
判别 式 模 型 ? 


难度 : tok sek 


分 析 与 解答 


要 想 正确 回答 这 个 问题 肯 先 要 和 弄 清 楚 生 成 式 模 型 和 判别 式 模型 的 
区 别 。 假 设 可 观测 到 的 变量 集合 为 XY， 需 要 预测 的 变量 集合 为 Y， 其 他 
的 变量 集合 为 Z。 生 成 式 模 型 是 对 联合 概率 分 布 P(X,Y,2Z) 进 行 建 模 ， 在 
给 定 观测 集合 X 的 条 件 下 ， 通 过 计算 边缘 分 布 来 得 到 对 变量 集合 区 J 推 
ir, BU 


P(X,Y) 2,,P(X,Y,2) 
PO PY 


P(Y|X)= 


(6.20) 


Fl A RAL BRENT EER PY, ZANET, STACKS 
量 Z 束 可 以 得 到 对 变量 集合 Y 的 预测 ， 即 


P(Y|X)= 2 P(Y,Z|X) 


(6.21) 


常见 的 概率 图 模型 有 朴素 贝 叶 斯 、 最 大 炉 模 型 、 贝 叶 斯 网 络 、 隐 
马尔 可 夫 模 型 、 条 件 随机 场 、pLSA、LDA 等 。 基 于 前 面 的 问题 解答 ， 
我 们 知道 朴素 贝 叶 斯 、 贝 时 斯 网 络 、pLSA、LDA 等 模型 都 是 先 对 联合 
概率 分 布 进 行 建 模 ， 然 后 再 通过 计算 边缘 分 布 得 到 对 变量 的 预测 ， 所 
以 它们 都 属于 生成 式 模 型 ， 而 最 大 烂 模 型 是 直接 对 条 件 概率 分 布 进行 
建 模 ， 因 此 属于 判别 式 模型 。 隐 马尔 可 夫 模 型 和 条 件 随 机 场 模型 是 对 
序列 数据 进行 建 模 的 方法 ， 将 在 后 面 的 章节 中 详细 介绍 ， 其 中 隐 马 尔 
可 夫 模 型 属于 生成 式 模型 ， 条 件 随 机 场 属于 判别 式 模型 。 


04 ”马尔 可 夫 模 型 


场景 描述 


在 介绍 隐 马 尔 可 夫 模型 之 前 ， 先 简单 了 解 马 尔 可 夫 过 程 。 马 尔 可 
大 过 程 是 证 无 后 效 性 的 了 机 过 程 ， 修 设 一 个 县 机 过 程 趾 ，t 针 六 的 
状态 x 的 条 件 分 布 ， 仅 仅 与 其 前 一 个 状态 x, ;有关 ， 即 Po bx... 
EPER, MEARI SRTA, HERSE 
离散 的 马尔 可 夫 过 程 也 称 为 马尔 可 夫 链 ， 如 图 6.4 所 示 。 


图 6.4 ”马尔 可 夫 链 


隐 马 尔 可 夫 模 型 是 对 含有 未 知 参数 〈 隐 状态 ) 的 马尔 可 夫 链 进行 
建 模 的 生成 模型 ， 概 率 图 模型 如 图 6.5 所 示 。 在 简单 的 蕊 尔 可 夫 模 型 
中 ， 所 有 状态 对 于 观测 者 都 是 可 见 的 ， 因 此 在 马尔 可 夫 模 型 中 仅仅 包 
括 状 态 间 的 转移 概率 。 而 在 隐 马 尔 可 夫 模 型 中 ， 隐 状态 xi 对 于 观测 者 
而 言 是 不 可 见 的 ， 观 测 者 能 观测 到 的 只 有 每 个 隐 状 态 xi 对 应 的 输出 yi， 
而 观测 状态 yi 的 概率 分 布 仅仅 取决 于 对 应 的 隐 状 态 %。 在 隐 马 尔 可 夫 模 
型 中 ， 参 数 包 括 了 隐 状 态 间 的 转移 概率 、 隐 状态 到 观测 状态 的 输出 概 
i. 隐 状 态 x 的 取 值 空 0、 观测 状态 y 的 取 值 空间 以 及 初始 状态 的 概率 


图 6.5” 隐 马尔 可 夫 模 型 


问题 1 ”如 何 对 中 文 分 词 问题 用 隐 马 尔 可 夫 模 型 进行 建 模 
和 训练 ? 


TREE: tok koe ys 
分 析 与 解答 


下 面 用 一 个 简单 的 例子 来 说 明 隐 马尔 可 夫 模 型 的 建 模 过 程 。 


假设 有 3 个 不 同 的 萌 户 ， 每 个 戎 卢 里 有 好 药 和 坏 药 奋 干 ， 现 在 从 3 
个 戎 户 中 按 以 下 规则 倒 出 药 来 。 


(1) 随机 挑选 一 个 戎 芦 。 

(2) 从 戎 芦 里 倒 出 一 颗 药 ， 记 录 是 好 药 还 是 坏 药 后 将 药 放 回 。 
(3) 从 当前 苦 芦 依照 一 定 的 概率 转移 到 下 一 个 葫芦 。 

(4) 重复 步骤 (2) 和 (3) ° 


在 整个 过 程 中 ， 我 们 并 不 知道 每 次 拿 到 的 是 哪 一 个 戎 户 。 用 隐 马 
尔 可 夫 模 型 来 撕 述 以 上 过 程 ， 隐 状态 束 是 当前 是 哪 一 个 萌 疡 ， 隐 状态 
的 取 值 空间 为 { 戎 户 1， 戎 户 2， 戎 户 3}， 观 测 状态 的 取 值 空间 为 { 好 
药 ， 坏 药 }， 初 始 状态 的 概率 分 布 就 是 第 〈1) 步 随机 挑选 菁 芦 的 概率 
分 布 ， 隐 状态 间 的 转移 概率 束 古 从 当前 葫芦 转移 到 下 一 个 戎 芦 的 概 
率 ， 而 隐 状 态 到 观测 状态 的 输出 概率 吏 是 每 个 萌 卢 里 好 药 和 坏 药 的 概 
率 。 记 孙 下 来 的 药 的 顺序 惑 是 观测 状态 的 序列 ， 而 每 次 拿 到 的 戎 疡 的 
顺序 束 古 隐 状 态 的 序列 。 


隐 马 尔 可 夫 模 型 包括 概率 计算 问题 、 预 测 问 题 、 学 习 问 题 三 个 基 
本 问题 。 


(1) 概率 计算 问题 : 已 知 模型 的 所 有 参数 ， 计 算 观 测序 列 Y 出 现 
的 概率 ， 可 使 用 前 同和 后 向 算法 求解 。 


(2) 预测 问题 : 已 知 模型 所 有 参数 和 观测 序列 Y， 计 算 最 可 能 的 
隐 状 态 序 列 X， 可 使 用 经 典 的 动态 规划 算法 一 维 竺 比 算法 来 求解 最 
可 能 的 状态 序列 。 


(3) 学 习 问 题 : 已 知 观测 序列 Y， 求 解 使 得 该 观测 序列 概率 最 大 
的 模型 参数 ， 包 括 隐 状态 序列 、 隐 状态 之 间 的 转移 概率 分 布 以 及 从 隐 
状态 到 观测 状态 的 概率 分 布 ， 可 使 用 Baum-Welch 算 法 进行 参数 的 学 
习 ，Baum-Welch 算 法 是 最 大 期 望 算 法 的 一 个 特例 。 


上 面 提 到 的 问题 和 算法 在 此 不 多 做 介绍 ， 感 兴趣 的 读者 可 以 查阅 
相关 资料 。 下 面 回 到 开头 的 问题 。 隐 马尔 可 夫 模 型 通常 用 来 解决 序列 
标注 问题 ， 因 此 也 可 以 将 分 词 问题 转化 为 一 个 序列 标注 问题 来 进行 建 
模 。 例 如 可 以 对 中 文句 子 中 的 每 个 字 做 以 下 标注 ，B 表 示 一 个 词 开 头 
的 第 一 个 字 ，E 表 示 一 个 词 结尾 的 最 后 一 个 字 ，M 表 示 一 个 词 中 间 的 
字 ，5S 表 示 一 个 单字 词 ， 则 隐 状 态 的 取 值 空间 为 {B,E,M,S}。 同 时 对 隐 
状态 的 转移 概率 可 以 给 出 一 些 先 验 知 识 ，B 和 M 后 面 只 能 是 M 或 者 E,，5S 
和 E 后 面 只 能 是 B 或 者 S$。 而 每 个 字 就 是 模型 中 的 观测 状态 ， 取 值 空间 
为 语 料 中 的 所 有 中 文字 。 完 成 建 模 之 后 ， 使 用 语 料 进行 训练 可 以 分 有 
监督 训练 和 无 监督 训练 。 有 监督 训练 即 对 语 料 进行 标注 ， 相 当 于 根据 
经 验 得 到 了 语 料 的 所 有 隐 状 态 信息 ， 然 后 束 可 以 用 简单 的 计数 法 来 对 
模型 中 的 概率 分 布 进行 极 大 似 然 估计 。 无 监督 训练 可 以 用 上 文 提 到 的 
Baum-Welch 算 法 ， 同 时 优化 隐 状 态 序 列 和 模型 对 应 的 概率 分 布 。 


问题 2 最 大 炳 马尔 可 夫 模型 为 什么 会 产生 标注 偏 置 问 
题 ? 如 何 解决? 


难度 : kkk 


分 析 与 解答 


隐 马 尔 可 夫 模 型 等 用 于 解决 序列 标注 问题 的 模型 中 ， 常常 对 标注 
进行 了 独立 性 假设 。 以 隐 马 尔 可 夫 模 型 为 例 介 绍 标注 偏 置 问题 (Label 
Bias Problem) 。 


在 隐 马 尔 可 夫 模 型 中 ， 假 设 隐 状态 〈 即 序列 标注 问题 中 的 标注 ) 
xi 的 状态 满足 马尔 可 夫 过 程 ， 圭 刻 的 状态 x 的 条 件 分 布 ， 仅 仅 与 其 前 
-MASA R, RPX. Pad- 同时 隐 马 尔 可 夫 模 
型 假设 观测 序列 中 各 个 状态 仅仅 取决 于 它 对 应 的 隐 状 态 
P(V IX 15X05-0sX pV pV 20-1 e+ pe =P VAX) ° SASK BI KA SERN FE 
了 隐 状 态 间 的 转移 概率 和 隐 状 态 到 观测 状态 的 输出 概率 。 


实际 上 ， 在 序列 标注 问题 中 ， 隐 状态 (标注 ) 不 仅 和 单个 观测 状 
态 相 关 ， 还 和 观察 序列 的 长 度 、 上 下 文 等 信息 相关 。 例 如 词性 标注 问 
题 中 ， 一 个 词 被 标注 为 动词 还 是 名 词 ， 不 仅 与 它 本 里 以 及 它 前 一 个 词 
的 标注 有 天 ， 还 依赖 于 上 下 文中 的 其 他 词 ， 于 是 引出 了 最 大 燃 马 尔 可 
夫 模 型 (Maximum Entropy Markov Model, MEMM) ， 如 图 6.6 所 示 。 
最 大 炳 马尔 可 夫 模 型 在 建 模 时 ， 去 除了 隐 马 尔 可 夫 模 型 中 观测 状态 相 
互 独立 的 假设 ， 考 虑 了 整个 观测 序列 ， 因 此 获得 了 更 强 的 表达 能 
同时 ， 隐 马尔 可 夫 模 型 是 一 种 对 隐 状 态 序 列 和 观测 状态 序列 的 联合 概 
率 P(x,y) 进 行 建 模 的 生成 式 模 型 ， 而 最 大 信 马 尔 可 夫 模 型 是 直接 对 标注 
的 后 验 概率 P(y|x) 进 行 建 模 的 判别 式 模型 。 


图 6.6 ”最 大 粹 马尔 可 夫 模 型 


Be AM SK AY ORAL ERB 


PO pon ron) | [PG | 2 Yn) 
i=l ) 


(6.22) 


其 中 PG |X V RERET, BUNCE x A a EL BEAT 
和 之 后 计算 概率 ， 计 算 公式 为 


exp(F (X; Xi 1, Vin) 
P(x; ae ’ Yin) = EN VN AR OE 
ZAR 5 3. Piena) 


(6.23) 
其 中 Z 为 归 一 化 因子 


Z(% > Vi-n ) = > exp(F(x; ? Xi > Fiy )) 


(6.24) 
HPE Xs Vin Ni Xi- Vien SEES < 


BKM RTIRAR EERE IG, WEAR o TAR 
现 ， 状 态 1 倾向 于 转移 到 状态 2， 状 态 2 倾向 于 转移 到 状态 2 本 身 。 但 是 
实际 计算 得 到 的 最 大 概率 路 径 是 1->1->1->1， 状 态 1 并 没有 转移 到 状态 
2， 如 图 6.8 所 示 。 这 是 因为 ， 从 状态 2 转移 出 去 可 能 的 状态 包括 1、2、 
3、4、5， 概 率 在 可 能 的 状态 上 分 散 了 ， 而 状态 1 转移 出 去 的 可 能 状态 
仅仅 为 状态 1 和 2， 概 率 更 加 集中 。 由 于 局 部 归 一 化 的 影响 ， 隐 状态 会 
倾向 于 转移 到 那些 后 续 状 态 可 能 更 少 的 状态 上 ， 以 提高 整体 的 后 验 概 
率 。 这 就 是 标注 仿 置 问题 。 


观测 1 观测 2 观测 3 观测 4 


状态 1 0.4 0.45 0.5 
0.2 ti sss OK 0.5 
0.1 0.2 


0.2 


状 太 
状态 3 @ 0.2 0.1 
状态 4 © 


局 部 转移 概率 表明 : 
“状态 1 几乎 总 是 容易 跳 到 状态 2。 
。 状 态 2 几乎 总 是 容易 停留 在 状态 2。 
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观测 1 观测 2 观测 3 观测 4 
Rii 04 0.45 (0.5) 
0.2 Go oss "六 0.5 
状态 2 l 
0.2 01 0.2 


状态 
状态 3 O 0.2 0.1 0.2 


最 可 能 路 径 : 1->1->1->1 
图 6.8 ”标注 偏 置 


条 件 随机 场 (Conditional Random Field, CRF) 在 最 大 炉 蕊 尔 可 
夫 模 型 的 基础 上 上， 进行 了 全 局 归 一 化 ， 如 图 6.9 所 示 。 


图 6.9 条件 随 机 场 


条 件 随机 场 建 模 如 下 


Zo, [eres peli d) 


PRO ian Vin) = 
(6.25) 


其 中 归 一 化 因子 Z(0 站 是 在 全 局 范围 进行 归 一 化 ， 枚 举 了 整个 隐 状 态 
序列 xj ;的 全 部 可 能 ， 从 而 解决 了 局 部 归 一 化 市 来 的 标注 偏 置 问题 。 


贝 叶 斯 理论 与 < 上 帝 的 存在 ” 


提起 贝 叶 斯 学 派 和 频率 学 派 贯穿 一 个 世纪 的 辩论 ， 统 计 和 机 器 学 习 背 景 的 同 当 
可 谓 不 熟悉 ， 但 如 果 追 根 溯源 ， 讲 起 贝 叶 斯 < 开 宗 立 派 "的 初衷， 确实 还 是 一 个 很 有 
的 故事 。 因 为 贝 叶 斯 提出 贝 叶 斯 理论 ， 最 初 葛 是 为 了 证 明 “ 上 和 的 存在 ”。 


生活 在 18 世 纪 的 贝 叶 斯 本 职工 作 是 一 位 英格兰 长 老 会 的 牧师 ，1763 年 ， 贝 叶 斯 发 
表 论 文 《 论 有 关机 遇 问题 的 求解 》， 黄 定 了 贝 叶 斯 统计 理论 的 基础 。 在 这 篇 文章 中 ， 贝 
叶 斯 提出 了 解决 框架 ， 就 是 用 不 断 增 加 的 信息 和 经 验 ， 可 以 逐步 逼近 未 知 的 真相 或 理解 
未 知 ， 并 给 出 了 算法 。 但 贝 叶 斯 关注 的 原始 问题 的 表述 是 这 样 的 ， 人 能 不 能 根据 凡人 世 
界 的 经 验 和 现实 世界 的 证 据 来 证 明 上 帝 的 存在 。 因为 宗教 作 士 和 逻辑 就 是 基于 上 第 存 在 
的 主要 证 据 ， 能 够 认识 机 遇 的 规律 ， 几 乎 等 同 于 证 明 上 帝 的 存 


其 实 17 世 纪 一 18 世 纪 ， 大 量 数学 家 、 物理 学 家 、 哲 学 家 的 研究 都 与 神学 有 和 干 丝 万 
缕 的 联系 。1687 年 ， 艾 萨 克 . 牛 顿 惊世骇俗 的 著作 《自然 哲学 的 数学 原理 》 一 书 出 版 ， 

文中 牛顿 也 花 了 大 量 的 篇 幅 总 结 写 这 本 书 的 原因 ， 那 就 是 为 了 找寻 到 上 帝 是 如 何 构建 世 
界 的 真相 ， 或 者 说 上 帝 是 基于 哪 几 个 法 则 来 构建 世界 的 。 牛 顿 是 个 度 诚 的 新 教徒 ， 很 多 
人 被 一 些 观点 迷惑 了 ， WA Bie 年 才 相 信 上 帝 的 ， 这 是 错 的 。 牛 顿 是 自 幼 就 信封 上 
帝 。 他 在 这 本 书 里 尽 可 能 用 古典 几何 学 的 办 法 来 描述 微 积 分 。 由 此 看 出 ， 古 希腊 数学 家 
数学 探索 世界 ， 而 牛 HET 算 像 古 硕 腊 数 学 家 那样 ， 用 数学 来 探索 上 帝 。 
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但 殊途同归 ， 不 管 初 囊 是 怎样 ， 贝 叶 斯 和 牛顿 最 终 都 为 所 在 的 领域 甚至 全 人 类 的 
发 展 做 出 了 杰出 的 贡献 。 而 人 类 对 于 “上 帝 ” 的 认识 也 更 趋 理性 和 全 面 。 


05 ”主题 模型 


场景 描述 


基于 词 袋 模型 或 N-gram 模型 的 文本 表示 模型 有 一 个 明显 的 缺 隐 ， 
就 是 无 法 识别 出 两 个 不 同 的 词 或 词组 具有 相同 的 主题 。 因 此 ， 需 要 一 
种 技术 能 够 将 具有 相同 主题 的 词 或 词组 映射 到 同一 维度 上 去 ， 于 是 产 
生 了 主题 模型 。 主 题 模 型 是 一 种 特殊 的 概率 图 模型 。 想 象 一 下 我 们 如 
何 判定 两 个 不 同 的 词 具有 相同 的 主题 呢 ? 这 两 个 词 可 能 有 更 高 的 概率 
同时 出 现在 同一 篇 文档 中 ; 换 名 话说， 给 定 某 一 主题 ， 这 两 个 词 的 产 
生 概 率 都 征 比 较 高 的 ， 而 另 一 些 不 太 相 天 的 词汇 产生 的 概率 则 有 是 较 低 
的 。 假 设 有 K 个 主题 ， 我 们 就 把 任意 文章 表示 成 一 个 K 维 的 主题 向 量 ， 
其 中 癌 量 的 每 一 维 代表 一 个 主题 ， 权 重 代 表 这 篇 文章 属于 这 个 特定 主 
题 的 概率 。 主 题 模 型 所 解决 的 事情 ， 束 是 从 文本 库 中 发 现 有 代表 性 的 
主题 (得 到 每 个 主题 上 面 词 的 分 布 ) ， 并 且 计 算出 每 篇 文章 对 应 着 哪 


些 主题 。 


知识 点 


pLSA (Probabilistic Latent Semantic Analysis) , LDA (Latent 
Dirichlet Allocation) 


问题 1 常见 的 主题 模型 有 哪些 ? 试 介 绍 其 原理 。 


RE: kN 


分 析 与 解答 


= pLSA 


pLSA 是 用 一 个 生成 模型 来 建 模 文章 的 生成 过 程 。 假 设 有 K 个 主 
题 ，M 篇 文 草 ， 对 语料库 中 的 任意 文章 d， 假 设 该 文章 有 N 个 词 ， 则 对 
于 其 中 的 每 一 个 词 ， 我 们 首先 选择 一 个 主题 z， 然 后 在 当前 主题 的 基础 
上 生成 一 个 词 w。 图 6.10 是 pLSA 图 模型 。 


图 6.10 ”pLSA 图 模型 


生成 主题 z: 和 词 w 的 过 程 遵 照 一 个 确定 的 概率 分 布 。 设 在 文章 d 中 
De pee), 在 选 定 主题 的 条 件 下 生成 词 w 的 概率 为 
p(wlz) ， 则 给 定 文 章 q， 生 成 词 w 的 概率 可 以 写成 : 


wld w|z,d)p(z|d 
pea door DPED 。 在 这 里 我 们 做 一 个 简化 ， 假 设 给 定 主题 : 
的 条 件 下 ， 生 成 词 w 的 概率 是 与 特定 的 文章 无 关 的 ， 则 公式 可 以 简化 


(w|d) = p(w] z)p(z |) 
POD DP ZR EN a at ast yt He ERT D 
用 似 然 画 数 表示 为 


M N 
L=] [| [pdn m ) = 


(6.26) 


其 中 p(dwwn) 是 在 第 mm 篇 文章 qd 中 ， 出 现 单词 w 的 概率 ， 与 上 文中 的 
p(wlq) 的 含义 是 相同 的 ， 只 古 换 了 一 种 符号 表达 ;，c(dnm,wn) 是 在 第 m 篇 
文章 dm 中 ， 单 词 w 出 现 的 次 数 。 


于 是 ，Log 似 然 函 数 可 以 写成 : 


l= c(d,,,w, )log p(d,,,w,) 


c(d,,,w, log X pdn) PCE | In) POW, | Zx) 


(6.27) 


在 上 面 的 公式 中 ， 定 义 在 文章 上 的 主题 分 布 p(zlldm) 和 定义 在 主题 上 的 
词 分 布 p(wnlza 是 行 估计 的 参数 。 我 们 需要 找到 最 优 的 参数 ， 使 得 整个 
语料库 的 Log 似 然 函数 最 大 化 。 由 于 参数 中 包含 的 是 隐 含 变量 ( 即 无 
法 直接 观测 到 的 变量 )  ， 因 此 无 法 用 最 大 似 然 估计 直接 求解 ， 可 以 利 
用 最 大 期 望 算 法 来 解决 。 


u LDA 


LDA 可 以 看 作 是 pLSA 的 贝 叶 斯 版 本 ， 其 文本 生成 过 程 与 pLSA 其 
本 相同 ， 不 同 的 是 为 主题 分 布 和 词 分 布 分 别 加 了 两 个 狄 利 克 雷 
(Dirichlet) 先 验 。 为 什么 要 加 入 狄 利克 雷 先 验 呢 ?这 就 要 从 频率 学 
派 和 贝 叶 斯 学 派 的 区 别 说 起 。pLSA 采 用 的 是 频率 派 思想 ， 将 每 篇 文章 
对 应 的 主题 分 布 p(zi|d,) 和 每 个 主题 对 应 的 词 分 布 p(w|zj) 看 成 确定 的 未 
知 常数 ， 并 可 以 求解 出 来 ， 而 LDA 采 用 的 是 贝 叶 斯 学 派 的 思想 ， 认 为 
竺 估计 的 参数 (主题 分 布 和 词 分 布 ) 不 再 是 一 个 固定 的 常数 ， 而 是 服 
从 一 定 分 布 的 随机 变量 。 这 个 分 布 符合 一 定 的 先 验 概率 分 布 ( 即 狄 利 
克 雷 分 布 ) ， 并 且 在 观察 到 样本 信息 之 后 ， 可 以 对 先 验 分 布 进行 修 
正 ， 从 而 得 到 后 验 分 布 。LDA 之 所 以 选择 狄 利克 雷 分 布 作 为 先 验 分 
布 ， 是 因为 它 为 多 项 式 分 布 的 共 斩 先 验 概 率 分 布 ， 后 验 概 率 依 然 服 从 
狄 利 克 雷 分 布 ， 这 样 做 可 以 为 计算 带 来 便利 。 图 6.11 是 LDA 的 图 模 
型 ， 其 中 gw，B 分 别 为 两 个 狄 利克 雷 分 布 的 超 参数 ， 为 人 工 设 定 。 


图 6.11 LDA 图 模型 


语料库 的 生成 过 程 为 : 对 文本 库 中 的 每 一 篇 文档 dj ， 采 用 以 下 可 


作 
(1) 从 超 参 数 为 a 的 狄 利克 雷 分 布 中 抽样 生成 文档 qi 的 主题 分 布 


(2) 对 文档 qd 中 的 每 一 个 词 进行 以 下 3 个 操作 。 


。 从 代表 主题 的 多 项 式 分 布 0; 中 抽样 生成 它 所 对 应 的 主题 z;。 
。 从 超 参 数 为 B 的 狄 利克 雷 分 布 中 抽样 生成 主题 2; 对 应 的 词 分 布 风 


zij 
。 从 代表 词 的 多 项 式 分 布 % TREE w 。 


我 们 要 求解 出 主题 分 布 bi 以 及 词 分 布 % 的 期 望 ， 可 以 用 吉 布 斯 采 
样 (Gibbs Sampling) 的 方式 实现 。 首 先 随机 给 定 每 个 单词 的 主题 ， 然 
后 在 其 他 变量 固定 的 情况 下 ， 根 据 转移 概率 抽样 生成 每 个 单词 的 新 主 
题 。 对 于 每 个 单词 来 说 ， 转 移 概率 可 以 理解 为 ,给 定 文章 中 的 所 有 单 
词 以 及 除 自 身 以 外 其 他 所 有 单词 的 主题 ， 在 此 条 件 下 该 单词 对 应 为 各 
个 新 主题 的 概率 。 最 后 ， 经 过 反复 闪 代 ， 我 们 可 以 根据 收敛 后 的 采样 
结果 计算 主题 分 布 和 词 分 布 的 期 望 。 


问题 2 如 何 确定 LDA 模 型 中 的 主题 个 数 ? 


难度 : tokio 


分 析 与 解答 


在 LDA 中 ， 主 题 的 个 数 K 是 一 个 预先 指定 的 超 参数 。 对 于 模型 超 
参数 的 选择 ， 实 践 中 的 做 法 一 般 是 将 全 部 数据 集 分 成 训练 集 、 验 证 
集 、 和 测试 集 3 部 分 ， 然 后 利用 验证 集 对 超 参 数 进 行 选择 。 例 如 ， 在 确 
定 LDA 的 主题 个 数 时 ， 我 们 可 以 随机 选取 60% 的 文档 组 成 训练 集 ， 另 
外 20% 的 文档 组 成 验证 集 ， 剩 下 20% 的 文档 组 成 测试 集 。 在 训练 时 ， 
尝试 多 组 超 参 数 的 取 值 ， 并 在 验证 集 上 检验 哪 一 组 超 参 数 所 对 应 的 模 
型 取得 了 最 好 的 效果 。 最 终 ， 在 验证 集 上 效果 最 好 的 一 组 超 参 数 和 其 
对 应 的 模型 将 被 选 定 ， 并 在 测试 集 上 进行 测试 。 

为 了 衡量 LDA 模 型 在 验证 集 和 测试 集 上 的 效果 ， 需 要 寻找 一 个 合 
适 的 评估 指标 。 一 个 常用 的 评估 指标 是 困惑 度 (perplexity) 。 在 文档 
集合 D 上 ， 模 型 的 困惑 度 被 定义 为 


d=1 


perplexity(D) = exp 


2 log =l 


2N; 


(6.28) 
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模型 所 预测 的 文档 qd 的 生成 概率 ，Nj 为 文档 d 中 单词 的 尽数 。 


一 开始 ， 随 着 主题 个 数 的 增多 ， 模 型 在 训练 集 和 验证 集 的 困惑 度 
到 下降 趋 势 ， 但 是 当主 题 数目 足 够 大 的 时 候 ， 会 出 现 过 拟 合 ， 导 致 困 
惑 度 指标 在 训练 集 上 继续 下 降 但 在 验证 集 上 反而 增长 。 这 时 ， 可 以 取 
验证 集 的 困惑 度 极 小 值 点 所 对 应 的 主题 个 数 作为 超 参 数 。 在 实践 中 ， 
困惑 度 的 极 小 值 点 可 能 出 现在 主题 数目 非常 大 的 时 候 ， 然 而 实际 应 用 
并 不 能 承受 如 此 大 的 主题 数目 ， 这 时 就 需要 在 实际 应 用 中 合理 的 主题 
数目 范围 内 进行 选择 ， 比 如 选择 合理 范围 内 困惑 度 的 下 降 明 显 变 慢 
(拐点 ) 的 时 候 。 


男 外 一 种 方法 是 在 LDA 基 础 之 上 融入 分 层 狄 利 元 雷 过 程 
(Hierarchical Dirichlet Process, HDP) ， 构 成 一 种 非 参数 主题 模型 
HDP-LDA。 非 参数 主题 模型 的 好 处 是 不 需要 预先 指定 主题 的 个 数 ， 模 
型 可 以 随 着 文档 数目 的 变化 而 自动 对 主题 个 数 进行 调整 ， 它 的 缺点 是 
在 LDA 基 础 上 融入 HDP 之 后 使 得 整个 概率 图 模型 更 加 复杂 ， 训 练 速度 


也 更 加 缓慢 ， 因 此 在 实际 应 用 中 还 是 经 党 采用 第 一 种 方法 确定 合适 的 
主题 数目 。 


问题 3 ”如 何 用 主题 模型 解决 推荐 系统 中 的 冷 启动 问题 ? 


难度 : tok ae sek 


分 析 与 解答 


首先 对 题目 做 进一步 的 解释 。 推 荐 系统 中 的 冷 司 动 问题 是 指 在 没 
有 大 量 用 户 数据 的 情况 下 如 何 给 用 户 进行 个 性 化 推荐 ， 目 的 是 最 优化 
点 击 率 、 转 化 率 或 用 户 体验 〈 用 户 停留 时 间 、 留 存 率 等 ) 。 冷 启动 问 
题 一 般 分 为 用 户 冷 后 动 、 物 品 冷 司 动 和 系统 冷 司 动 三 大 类 。 用 户 冷 司 
动 古 指 对 一 个 之 前 没有 行为 或 行为 极 少 的 新 用 户 进 行 推荐 ， 物 品 冷 局 
动 是 指 为 一 个 新 上 市 的 商品 或 电影 (这 时 没有 与 之 相关 的 评分 或 用 户 
行为 数据 ) 寻找 到 具有 洪 在 兴趣 的 用 户 ; 系统 冷 局 动 是 指 如 何 为 一 个 
新 开发 的 网 站 设计 个 性 化 推荐 系统 。 


解决 冷 启动 问题 的 方法 一 般 是 基于 内 容 的 推荐 。 以 Hulu 的 场景 大 

例 ， 对 于 用 户 冷 启动 来 说 ， 我 们 希望 根据 用 户 的 注册 信息 (如 : 年 
龄 、 性 别 、 爱 好 等 ) 、 搜 索 关 键 词 或 者 合法 站 外 得 到 的 其 他 信息 ( 例 
如 用 户 使 用 Facebook 账 号 登录 ， 并 得 到 授权 ， 可 以 得 到 Facebook 中 的 
朋友 关系 和 评论 内 容 ) 来 推测 用 户 的 兴趣 主题 。 得 到 用 户 的 兴趣 主题 
之 后 ， 我 们 就 可 以 找到 与 该 用 户 兴 趣 主题 相同 的 其 他 用 户 ， 通 过 他 们 
的 历史 行为 来 预测 用 户 感 兴趣 的 电影 是 什么 。 同 样 地 ， 对 于 物品 冷 启 
动 问题 ， 我 们 也 可 以 根据 电影 的 导演 、 演 员 、 类 别 、 天 键 词 等 信息 推 
测 该 电影 所 属于 的 主题 ， 然 后 基于 主题 向 量 找到 相似 的 电影 ， 并 将 新 
电影 推荐 给 以 往 喜 欢 看 这 些 相似 电影 的 用 户 。 可 以 使 用 主题 模型 
(pLSA、LDA 等 ) 得 到 用 户 和 电影 的 主题 。 以 用 户 为 例 ， 我 们 将 每 个 
用 户 看 作 主 题 模 型 中 的 一 篇 文档 ， 用 户 对 应 的 特征 作为 文档 中 的 单 
词 ， 这 样 每 个 用 户 可 以 表示 成 一 袋子 特征 的 形式 。 通 过 主题 模型 学 习 
之 后 ， 经 常 共同 出 现 的 特征 将 会 对 应 同一 个 主题 ， 同 时 每 个 用 户 也 会 


Le ee o 每 个 电影 的 主题 分 布 也 可 以 用 类 似 的 方法 
得 到 。 


那么 如 何 解 决 系统 冷 启 动 问题 呢 ? 首先 可 以 得 到 每 个 用 户 和 电影 
对 应 的 主题 同 量 ， 除 此 之 外 ， 还 需要 知道 用 户主 题 和 电影 主题 之 间 的 
偏好 程度 ， 也 就 是 哪些 主题 的 用 户 可 能 喜欢 哪些 主题 的 电影 。 当 系统 
中 没有 任何 数据 时 ， 我 们 需要 一 些 先 验 知识 来 指定 ， 并 且 由 于 主题 的 
数目 通 肖 比较 小 ， 随 着 系 统 的 上 线 ， 收 集 到 少量 的 数据 之 后 我 们 就 可 
以 对 主题 之 间 的 偏好 程度 得 到 一 个 比较 准确 的 估计 。 


第 7 章 ”优化 算法 


优化 是 应 用 数学 的 一 个 分 支 ， 也 是 机 器 学 习 的 核心 组 成 部 分 。 实 
际 上 ， 机 器 学 习 算法 = 模型 表征 + 模型 评估 + 优化 算法 。 其 中 ， 优 化 
算法 所 做 的 事情 就 是 在 模型 表征 空间 中 找到 模型 评估 指标 最 好 的 模 
型 。 不 同 的 优化 算法 对 应 的 模型 表征 和 评估 指标 不 尽 相 同 ， 比 如 经 典 
的 支持 向 量 机 对 应 的 模型 表征 和 评估 指标 分 别 为 线性 分 类 模型 和 最 大 
USE CH RRA UL 8 NR 
ZUR « 


随 着 大 数据 和 深度 学 习 的 迅猛 发 展 ， 在 实际 应 用 中 面临 的 大 多 是 
大 规模 、 高 度 非 凸 的 优化 问题 ， 这 给 传统 的 基于 全 量 数据 、 凸 优化 的 
优化 理论 市 来 了 巨大 的 挑战 。 如 何 设计 适用 于 新 场景 的 、 高 效 的 、 准 
确 的 优化 算法 成 为 近年 来 的 研究 热点 。 优 化 虽然 是 一 门 古老 的 学 科 ， 
但 是 大 部 分 能 够 用 于 训练 深度 神经 网 络 的 优化 算法 都 是 近 几 年 才 被 提 
出 ， 如 Adam 算 法 等 。 


虽然 ， 目 前 大 部 分 机 器 学 习 的 工具 已 经 内 置 了 和 常用 的 优化 算法 ， 
实际 应 用 时 只 需要 一 行 代码 即 可 完成 调用 。 但 是 ， 鉴 于 优化 算法 在 机 
右 学 习 中 的 重要 作用 ， 了 解 优化 算法 的 原理 也 很 有 必要 。 


01 有 监督 学 习 的 损失 函数 


场景 描述 


机 器 学 习 算法 的 关键 一 环 是 模型 评估 ， 而 损失 函数 定义 了 模型 的 
评 们 指标 。 可 以 说 ， 没 有 损失 函数 整 无 法 求解 模型 参数 。 不 同 的 损失 
函数 优化 难度 不 同 ， 最 终 得 到 的 模型 参数 也 不 同 ， 针 对 具体 的 问题 需 
要 选取 合适 的 损失 函数 。 


知识 点 
损失 函数 


问题 有 监督 学 习 涉 及 的 损失 画 数 有 哪些 ? 请 列举 并 简 述 
它们 的 特 上 后 。 


难度 : 次 次 立交 次 


分 析 与 解 管 


在 有 监督 学 习 中 ， 损 失范 数 刻画 了 模型 和 训练 样本 的 匹配 程度 。 
假设 训练 样本 的 形式 为 Ko yi;))， 其 中 x:EX 表 示 第 i 个 样本 点 的 特征 ， 
yiEY 表 示 该 样本 点 的 标签 。 参 数 为 96 的 模型 可 以 表示 为 男 数 
f(*,9): 半 一 了， 模型 关于 第 i 个 样本 点 的 输出 为 1(%,0)。 为 了 刻画 模型 
输出 与 样本 标签 的 匹配 程度 ， 定 义 损失 画 数 L(*,*):YxY > Ro, 
L (%, O), y; 越 小 ， 表 明 模 型 在 该 样本 点 匹配 得 越 好 。 


对 二 分 类 问题 ，Y={1,-1}， 我 们 希望 sign ftx;,0)=y;， 最 自然 的 损失 
函数 是 0-1 损 失 ， 即 


Lyi, y)= 15<o 
(7.1) 


其 中 1p 是 指示 函数 (Indicator Function) ， 当 且 仅 当 P 为 真 时 取 值 为 
1， 人 否则 取 值 为 0。 该 损失 函数 能 够 直观 地 刻画 分 类 的 错误 率 ， 但 是 由 
于 其 非 态 、 非 光滑 的 特点 ， 使 得 算法 很 难 直 接 对 该 贸 数 进行 优化 。0-1 
损失 的 一 个 代理 损失 函数 是 Hinge 损 失 函 数 : 


Linge (> ¥) = max{0,1— fy}. 


(7.2) 


Hinge 损 失 了 芳 数 是 0-1 损 失 函 数 相对 紧 的 同上 界 ， 有 旦 当 fy>1 时 ， 该 芳 数 
不 对 其 做 任何 惩 玉 。Hinge 损 失 在 育 =1 处 不 可 导 ， 因 此 不 能 用 梯度 下 降 
法 进行 优化 ， 而 是 用 次 梯度 下 降 法 (Subgradient Descent Method) 。0- 
1 损失 的 男 一 个 代理 损失 函数 是 Logistic 损 失 函 数 : 


Logistic (J, y) = log, (1 + exp(—fyV)) s 


(7.3) 


Logistic 损 失范 数 也 是 0-1 损 失 函 数 的 凸 上 界 ， 且 该 画 数 处 处 光滑 ， 因 
此 可 以 用 梯度 下 降 法 进行 优化 。 但 是 ， 该 损失 函数 对 所 有 的 样本 点 都 
有 所 惩 昼 ， 因 此 对 异常 值 相对 更 敏感 一 些 。 当 预测 值 / e[-1,1 和 时， 男 一 
个 常用 的 代理 损失 函数 是 交 义 焙 (Cross Entropy) 损失 函数 : 

+ fy 


1 
Di entropy (f, y) Pe log, (=£) 。 


(7.4) 


BO SPT EK BM 1H 0-149 A Es AOI LE FE o ARRA CH 
线 如 图 7.1 所 示 。 
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图 7.1 二 分 类 问题 的 损失 画 数 


对 于 回归 问题 ,Y=RR， 我 们 希望 1(%, 修 xy， 最 常用 的 损失 函数 
征 平方 损失 函数 


Loef) =(f - yy . 
(7.5) 
平方 损失 函数 是 光滑 函数 ， 能 够 用 梯度 下 降 法 进行 优化 。 然 而 ， 当 预 
测 值 距离 真实 值 越 远 时 ， 平 方 损失 函数 的 惩罚 力度 越 大 ， 因 此 它 对 异 
常 点 比较 敏感 。 为 了 解决 该 问题 ， 可 以 采用 绝对 损失 函数 


E jii Ey y) 一 f-y | 。 


(7.6) 


绝对 损失 函数 相当 于 十 在 做 中 值 回归 ， 相 比 做 均值 回归 的 平方 损失 画 
数 ， 绝 对 损失 函数 对 异常 上 更 鲁 棱 一 些 。 但 是 ， 绝 对 损失 函数 在 请 y 处 
TERTA o RAA En EMN EE A EEE, a ARH Hubert 
失范 数 


(f-yy, |f-yN6é 


Levee FT » =| 2 
e286 f-y|-8, [f-ybd 


(7.7) 


Huber Eh SUE [fy BUY FF, EYR ARER , 
处 处 可 导 ， 且 对 异常 点 鲁 棱 。 这 三 种 损失 画 数 的 曲线 如 图 7.2 所 示 。 
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图 7.2 ”回归 问题 的 损失 函数 


损失 函数 还 有 很 多 种 ， 这 里 只 是 简单 介绍 几 种 比较 常见 的 ， 不 再 
过 多 资 述 。 在 实际 应 用 中 ， 要 针对 特定 问题 和 模型 选择 合适 的 损失 
KHA, BEDI EBEE, ° 


02 ”机 器 学 习 中 的 优化 问题 


场景 描述 


大 部 分 机 器 学 习 模 型 的 参数 估计 问题 都 可 以 写成 优化 问题 。 机 咒 
学 习 模 型 不 同 ， 损 失 画 数 不 同 ， 对 应 的 优化 问题 也 各 不 相同 。 了 人 解 优 
化 问题 的 形式 和 特点 ， 能 帮助 我 们 更 有 效 地 求解 问题 ， 得 到 模型 参 
数 ， 从 而 达到 学 习 的 目的 。 


知识 点 
中 优化 基本 概念 


问题 ”机 器 学 习 中 的 优化 问题 ， 哪 些 是 串 优 化 问题 ， 哪 些 
是 非 凸 优化 问题 ? 请 各 举 一 个 例子 。 


TERE: tek ted ys 
分 析 与 解答 


要 回答 这 个 问题 ， 需 要 先 弄 明白 什么 是 凸 函 数 身 。 它 的 严格 定义 
A, RAL) eo Ra HAAN DORA, yr Sa 
AE[0,1] 总 有 


L(Ax+(1-A)y) S AL(x) +(1- AJL). 


该 不 等 式 的 一 个 直观 解释 是 ， 凸 函数 曲面 上 任意 两 点 连接 而 成 的 线 
段 ， 其 上 的 任意 一 点 都 不 会 处 于 该 男 数 曲面 的 下 方 ， 如 图 7.3 所 示 。 


(x, L()) 


(y, L(V) 


R73 DRŽIAK 


— Ms AAD Lae RE, TB, AEE ele 
LE AAR, TZIK, Y=-b, BORSA, M 
逻辑 回归 的 优化 问题 为 


r _ Z i T 
min L(@) = 2 ogi + expt y,0"x;)). 


(7.9) 
可 以 通过 计算 目标 函数 的 二 阶 Hessian 和 矩阵 来 验证 凸 性 。 
L,(0)=1log(l +exp(—y,0 x,)). 
(7.10) 
对 该 函数 求 一 阶 导 ， 得 到 
VL(0) = a x) (px) 
(7.11) 


继续 求 导 ， 得 到 函数 的 Hessian 和 矩阵 


V2, (9) DP Hi) ya 
(1+exp(y,0' x,)) 


o PEK) r 
(+exp(y.0x) 


(7.12) 
ERER E KERERE VLO, E O O, RALO 
HARR FL, PPAR ERR MaRS ME, 
因此 这 类 问题 一 般 认为 是 比较 容易 求解 的 问题 。 


男 一 方面 ， 主 成 分 分 析 对 应 的 优化 问题 古 非 证 优化 问题 。 令 下 
[Xj…Xn] 为 数据 中 心 化 后 构成 的 矩阵 ， 则 主 成 分 分 析 的 优化 问题 为 


min L(V) |X -V'VX ||, . 
Vy =I, 


(7.13) 


通过 串 函 数 的 定义 可 以 验证 该 优化 问题 的 目标 函数 为 非 吓 函 数 : SV 
为 优化 问题 的 全 局 极 小 值 ， 则 - V 也 是 该 问题 的 全 局 极 小 值 ， 且 有 


(37° ea) 
=F LV) +S US’). 
(7.14) 

ANTE EAE SO, FALE op or aS CARA SE hE HL) 
fal o — AKU, TEC OCCA UR Ae LOBOS ARRAY [Ae {AE peop 
Oe Ia aaa eve ier gee ee eee 
值 。 

.总 结 与 扩展 . 

除了 上 面 介绍 的 例子 ， 其 他 上 是 优化 问题 的 例子 包括 支持 疝 量 机 、 


线性 回归 等 线性 模型 ， 非 凸 优化 问题 的 例子 包括 低 秩 模型 (如 矩阵 分 
解 ) 、 深 度 神经 网 络 模型 等 。 


03 ”经 典 优 化 算法 


场景 描述 


针对 不 同 的 优化 问题 和 应 用 场景 ， 人 研究 者 们 提出 了 多 种 不 同 的 求 
解 算法 ， 并 逐渐 发 展 出 了 有 严格 理论 文 撑 的 研究 领域 一 吓人 优化 。 在 这 
众多 的 算法 中 ， 有 几 种 经 典 的 优化 算法 是 值得 被 牢记 的 ， 了 解 它 们 的 
适用 场景 有 助 于 我 们 在 面 对 痢 的 优化 问题 时 有 求解 思路 。 


知识 点 


微 积分 ， 线 性 代数 ， 串 优化 


问题 无 约束 优化 问题 的 优化 方法 有 哪些 ? 


MERE: terriers 
假设 有 一 道 无 约束 优化 问题 摆 在 你 面前 : 


min L(@), 
其 中 目标 函数 L(-) 古 光滑 的 。 请 问 求 解 该 问题 的 优化 算法 有 哪些 ? 它们 
的 适用 场景 是 什么 ? 
分 析 与 解答 


经 典 的 优化 算法 可 以 分 为 直接 法 和 迭代 法 两 大 类 。 


BR, WAGES, Wie Beas E A h EE el ee RAY 7 IZ 
这 个 方法 听 起 来 非常 厉害 的 样子 ， 但 它 不 是 万 能 的 。 直 接 法 要 求 目标 
EBs SOLED SAREE PSR ie, LO) eR ° FLOED K 
数 ， 那 么 6 是 最 优 解 的 充分 必要 条 件 是 L() 在 6 处 的 梯度 为 0， 即 


VL(@')=0. 


(7.15) 
因此 ， 为 了 能 够 直接 求解 出 多 ， 第 二 个 条 件 是 ， 上 式 有 闭 式 解 。 同 时 
满足 这 两 个 条 件 的 经 典 例子 是 岭 回归 (Ridge Regression) ， 其 目标 画 
BN 
L(0) =| X0- y | +4 || |k- 


(7.16) 


FADES RES EIR TARA OE ACES?) 
O =(X'X+ADT X'y. 
(TAT) 
直接 法 要 满足 的 这 两 个 条 件 限制 了 它 的 应 用 范围 。 因 此 ， 在 很 多 
实际 问题 中 ， 会 采用 迭代 法 。 迭 代 法 束 是 欠 代 地 修正 对 最 优 解 的 佑 
计 。 假 设 当前 对 最 优 解 的 估计 值 为 0， 硕 望 求解 优化 问题 

ô, =arg min L(0, +ô) 
ô ， 


(7.18) 
He Bl EA HTT Ba =&%+o。 和 迭代 法 又 可 以 分 为 一 阶 法 和 二 阶 法 两 
类 o 


一 阶 法 对 函数 LG, + o) 做 一 阶 泰勒 展开 ， 得 到 近似 式 
L(0, +56)= L(0,)+VL(B)' 8. 


(7.19) 


由 于 该 近似 式 仅 在 6 较 小 时 才 比 较 准 确 ， 因 此 在 求解 6 时 一 般 加 上 Ls 下 
则 项 


ô, =arg min LO)+ VOY ee ad 


=-aVL(6,). 

(7.20) 

由 此 ， 一 阶 法 的 迭代 公式 表示 为 
0,,, = 9, -aVL(0,), 

C721) 
eae. — BNE PR RBRE RRR, E Rize BPR aL 
信息 

二 阶 法 对 函数 L(9.+6) 做 二 阶 泰勒 展开 ， 得 到 近似 式 
L(0, +6) ~L(0,)+VL(6,)" 5+ 2 5'VLEO)S 
(7,22) 


HPV? 工 (0) 是 函数 L 在 9, 处 的 Hessian 和 矩阵 。 通 过 求解 近似 优化 问题 
ô, = arg min (1e +VL(0,)" erie a) 
=-V’L(,)' VLG), 
(7.23) 


BY AFR “BSAA 


0,,,=9,-V'L(G)'VLG,). 
(7.24) 


SNE RACE, Hessian hk te A ipa WME Ro = 
阶 法 的 收敛 速度 一 般 要 远 快 于 一 阶 法 ， 但 是 在 高 维 情况 下 ，Hessian 甜 
阵 求 逆 的 计算 复杂 度 很 大 ， 而 且 当 目标 函数 非 凸 时 ， 二 阶 法 有 可 能 会 
收敛 到 鞍点 (Saddle Point) ° 


:总 结 与 扩展 


俄罗斯 著名 数学 家 Yurii Nesterov 于 1983 年 提出 了 一 阶 法 的 加 速算 
法 HH， 该 算法 的 收敛 速率 能 够 达到 一 阶 法 收敛 速率 的 理论 界 。 针 对 二 


阶 法 甜 阵 求 赣 的 计算 复杂 度 过 高 的 问题 Charles George Broyden , 
Roger Fletcher, Donald Goldfarb 和 David Shanno 于 1970 年 独立 提出 了 后 
来 被 称 为 BFGS 的 算法 出 一 和，1989 年 扩展 为 低 存 储 的 L-BFGS 算 法 


[15] 。 


平方 根 倒数 速算 法 


20 世 纪 90 年 代 曾 出 现 过 一 于 不 可 思议 的 游戏 雷神 之 锤 (Quake series) 。 除 了 
优秀 的 情节 设 定 和 精美 的 画面 外 ， 这 个 游戏 最 让 人 称道 的 莫 过 于 它 的 运行 效率 。 在 计算 
机 配置 低下 的 年 代 ， 一 段 小 动画 都 是 一 个 奇迹 ， 但 雷神 之 锤 却 能 流畅 运行 于 各 种 配置 的 
电脑 上 。 直到 2005 年 Quake Engine 开 源 时 ， 雷 神 之 锤 系列 游戏 的 秘密 才 被 揭 开 。 在 代码 
库 中 ， 人 们 发 现 了 许多 堪 称 神 来 之 笔 的 算法 。 它 们 以 极其 变态 的 高 效率 ， 压 榨 着 计算 机 
的 性 能 ， 进 而 支撑 起 了 20 世 纪 90 年 代 3D 游 戏 的 传奇 。 其 中 的 某 些 算法 ， 甚 至 比 系统 原 
生 的 实现 还 要 快 ! 今天 的 主角 一 一 快速 平方 根 倒数 算法 (Fast Inverse Square Root) 就 
是 其 中 一 个 。 


z) 
在 3D 绘图 中 ， 计 算 平 方术 al VT 是 一 步 重要 的 运算 ， 因 为 计算 机 需要 大 量 
求解 一 个 矢量 的 方向 矢量 ， 即 


(Uz, Vy, Uz) 
V Ur os vy a Te Us 
(7.25) 


其 中 就 涉及 平方 根 倒数 的 计算 ， 这 也 是 最 麻烦 的 一 步 。 如 果 能 在 此 做 一 些 优化 ， 


演 染 效率 无 疑 会 得 到 极 大 提高 。 先 来 看 雷神 之 锤 中 平方 根 倒数 速算 法 的 代码 。 


float 
{ 


Q_rsqrt( float number ) 


long i; 

float x2, y; 

const float threehalfs = 1.5F; 
x2 = number * 0.5F; 


y= = ee 
= * ( long * ) &y; 
i) evil floating point bit level hacking 
i = Ox5f3759dFf - ( i >> 1 ); // what the fuck? 
y =* ( float * ) &i; 
y =y * ( threehalfs - ( x2 * y* y ) ); // 1st iteration 
// y 
= y * ( threehalfs - ( x2 * y* y ) ); // 2nd iteration, this can be removed 
return y; 


从 代码 中 可 以 看 出 ， 算 法 最 后 有 两 步 相同 的 操作 ， 像 是 在 对 一 个 数 进行 某 种 迭 


代 。 而 其 中 的 第 二 步 被 注释 掉 了 ， 似 乎 是 因为 和 性 能 损耗 相 比 ， 对 结果 的 二 次 迭代 意义 


不 大 ， 这 也 说 明 一 次 迭代 的 结果 在 误差 允许 范围 内 。 这 些 特性 让 人 想到 了 牛顿 法 。 
牛顿 法 是 一 种 常用 的 求 方程 数值 解 的 方法 ， 具 体 如 下 : PERAKE, NE 
fir) 
Tni+l = nm 一 一 7 
续 可 导 ， 且 有 唯一 零点 xg， 则 任 取 xyEI， 定 义 数列 fen), WE 
es 牛顿 法 进行 迭代 ， BLS RAE ER 。 下面 尝试 
EA T) = Bi. 
写 出 Va 的 迭代 式 , yt 一 27% 则 有 
a 
ee i a 
i fixy * 2 
3 ae a ( a, \ 
a =x,{15 a 
(7.26) 


可 知 ， 


将 xn+1，xn 营 换 成 »， 将 2 闪 换 成 x*2， 可 以 发 现 和 算法 的 最 后 一 步 是 吻合 的 。 由 此 
雷神 之 锤 中 的 平方 根 速 算法 确实 采用 了 牛顿 法 。 


04 ”梯度 验证 


场景 描述 


在 用 梯度 下 降 法 求解 优化 问题 时 ， 最 重要 的 操作 就 是 计算 目标 芳 
数 的 梯度 。 对 于 一 些 比较 复杂 的 机 器 学 习 模型 ， 如 深度 神经 网 络 ， 目 
标 芳 数 的 梯度 公式 也 非常 复杂 ， 很 容易 写 错 。 因此 ， 在 实际 应 用 中 ， 
写 出 计算 梯度 的 代码 之 后 ， 通 前 需要 验证 目 己 写 的 代码 是否 正确 。 


知识 点 
微 积分 ， 线 性 代数 


问题 ”如何 验 证 求 目 标 函 数 梯度 功能 的 正确 性 ? 


MEE: teks 


给 定 优化 问题 也 BO 假设 已 经 用 代码 实现 了 求 目标 画 数值 和 
求 目标 画 数 梯度 的 功能 。 请 问 ， 如 何 利用 求 目标 画 数值 的 功能 来 验证 
求 目标 画 数 梯度 的 功能 是 否 正确 ? 


分 析 与 解答 


根据 梯度 的 定义 ， 目 标 函 数 的 梯度 为 


LO) zø] 


VL(0) = pe 
o- 00, 


(7.27) 


其 中 对 任意 的 二 1,2,.….,n。 梯 度 的 第 i 个 元 素 的 定义 为 


OLO) _ | LO+he)-L(0-he,) 
00 ao 2h 


(7.28) 
其 中 e; 是 单位 癌 量 ， 维 度 与 9 相同 ， 仪 在 第 i 个 位 置 取 值 为 1， 其 余 位 置 
取 值 为 0°。 因此 ， 可 以 取 h 为 一 个 比较 小 的 数 〈 例 如 10-) ， 则 有 


0L(0) _ L(0+he,)—L(0—he,) 
00, 2h l 


(7.29) 


式 (7.29) 的 左边 为 目标 函数 梯度 的 第 i 企 分 量 ， 右 边 仅 和 目标 函数 值 
有 关 ， 二 者 应 近似 相等 。 


下 面 利用 泰勒 展开 来 计算 该 近似 误 莽 。 令 单 变 量 函 数 


L(x) = L(0+xe,). 


(7.30) 
根据 泰勒 展开 及 拉 格 朗 日 余 项 公式 ， 式 (7.30) TSA 
L(O+he)=L(h) = L(0)+L'(0)h+ aL rs Z0 (ph 

(7.31) 


其 中 p;E(0,h)。 类 似 地 ， 
L(O—he,) = L(-h) = L(0)—L'(O)h+ SEO -20 (q,)h° 


(7.32) 


其 中 q;E(-h,0)。 两 个 式 子 相 减 ， 等 号 两 边 同 时 除 以 2h， 并 由 于 


EO- ma 
(7.33) 
根据 式 (7.31) 一式 (7.33) 可 得 
L(@ + he,)-L(@—he;) _ GO ， (3) ~ (3) 
2h 56 Hi eS oe 
(7.34) 


当 j 充 分 小 时 ，P 和 qi 都 很 接近 0， 可 以 近似 认为 六 项 前 面 的 系数 是 音 数 
M， 因 此 近似 式 的 误差 为 


L(@+he,)-L(0—he,) ALO) 
2h 00, 


x Mh’. 


(7.35) 


由 此 可 知 ， 当 hp 较 小 时 ，h 每 减 小 为 原来 的 10， 近 似 误差 约 减 小 为 原 
来 的 10“， 即 近似 误差 是 h 的 高 阶 无 穷 小 。 


在 实际 应 用 中 ， 我 们 随机 初始 化 9， 取 h 为 较 小 的 数 (例如 
0-7) ， 并 对 i=1,2,..,n， 依 次 验证 


L(O+he,)-L(O—he,)_AL(0)| — , 
2h 06. | 


(7.36) 
是 否 成 立 。 如 果 对 于 某 个 下 标 i， 该 不 等 式 不 成 立 ， 则 有 以 下 两 种 可 


(1) 该 下 标 对 应 的 M 过 大 。 


(2) 该 梯度 分 量 计算 不 正确 。 


此 时 可 以 固定 9， 减 小 h 为 原来 的 10， 并 再 次 计算 下 标 i 对 应 的 近 
似 误 靶 ， 帮 近似 误差 约 减 小 为 原来 的 10“， 则 对 应 于 第 一 种 可 能 ， 我 
们 应 该 采用 更 小 的 h 重 新 做 一 次 梯度 验证 ， 否 则 对 应 于 第 二 种 可 能 ， 我 
们 应 该 检查 求 樟 度 的 代码 是 否 有 错误 。 


05 ”随机 梯度 下 降 法 


场景 描述 


经 典 的 优化 方法 ， 如 标 度 下 降 法 ， 在 每 次 迷 代 时 需要 使 用 所 有 的 
训练 数据 ， 这 给 求解 大 规模 数据 的 优化 问题 融 来 了 挑战 。 如 何 克 服 这 
个 挑战 ， 对 于 掌握 机 器 学 习 ， 尤 其 是 深度 学 习 至 关 重 要 。 


知识 点 
随机 梯度 下 降 法 ， 经 典 优化 算法 


问题 “ 当 训 练 数 据 量 特别 大 时 ， 经 典 的 梯度 下 降 法 存在 什 
么 问题 ， 需 要 做 如 何 改 进 ? 


TEBE: todays 
分 析 与 解答 


在 机 器 学 习 中 ， 优 化 问题 的 目标 函 数 通 常 可 以 表示 成 
Z(O) j Ep L(f (x, 0), y) > 
(7.37) 


HP Oe TIARAS, ERARA, NERAN, y 
ERAH ER, KALZ T REER EAR, Pga K7 


数据 的 分 布 ，E 表 示 期 望 。 因 此 ，L(0) 刻 画 了 当 参 数 为 9 时 ， 模 型 在 所 
有 数据 上 的 平均 损失 。 我 们 希望 能 够 找到 平均 损失 最 小 的 模型 参数 ， 
也 束 是 求解 优化 问题 
0 =arg minL (0). 
(7.38) 


26 BLA BBE T ERARA BT VARRE AY PP tia ROR I A H E K 
即 


又 人 ， 


1(0)= LS E ES 
M =£ 


(7.39) 
VL(0)= 7 LUI O), 2 
(7.40) 
其 中 M 是 训练 样本 的 个 数 。 模 型 参数 的 更 新 公式 为 
0. =0,-aVL(6). 
(7.41) 


AEC, ARRIERE MERRER RAY SEAT AT, a BOT PT 
有 的 训练 数据 。 当 M 很 大 时 ， 这 需要 很 大 的 计算 量 ， 耗 费 很 长 的 计算 
时 间 ， 在 实际 应 用 中 基本 不 可 行 。 


为 了 解决 该 问题 ， 随 机 梯度 下 降 法 (Stochastic Gradient Descent, 
SGD) 用 单个 训练 样本 的 损失 来 近似 平均 损失 ， 即 


L(0; x, yi) = L(f (xX,0),y;), 
(7.42) 


VL(O; x;,¥;) = VL(f (x9), y;) - 


(7.43) 


因此 ， 随 机 梯度 下 降 法 用 单个 训练 数据 即 可 对 模型 参数 进行 一 次 更 
新 ， 大 大 加 快 了 收敛 速率 。 该 方法 也 非常 适用 于 数据 源源 不 断 到 来 的 
在 线 更 新 场景 。 


为 了 降低 随机 梯度 的 方差， 从 而 使 得 迭代 算法 更 加 稳定 ， 也 为 了 
充分 利用 高 度 优化 的 矩阵 运算 操作 ， 在 实际 应 用 中 我 们 会 同时 处 理 若 
于 训练 数据 ， 该 方法 被 称 为 小 批量 梯度 下 降 法 (Mini-Batch Gradient 
Descent) 。 假 设 需要 同时 处 理 m 个 训练 数据 (OG Va) OG, Yi, IF, TY 
目标 函数 及 其 梯度 为 


L(6)=—Y US (%, 3, )» 


(7.44) 


VLO) =— ŠVIS, ,9),¥,,)- 


(7.45) 
对 于 小 批量 梯度 下 降 法 的 使 用 ， 有 以 下 三 点 需要 注意 的 地 方 。 
(1) 如 何 选取 参数 m? 在 不 同 的 应 用 中 ， 最 优 的 mm 通常 会 不 一 


样 ， 需 要 通过 调 参 选取 。 一 般 mm 取 2 的 需 次 时 能 充分 利用 和 矩阵 运算 操 
fF, PELA Deon Fei Pkt POA UE, (4032 ` 64` 128 ` 256 


(2) 如 何 挑选 m 个 训练 数据 ? 为 了 避免 数据 的 特定 顺序 给 算法 收 
敛 吾 来 的 影响 ， 一 般 会 在 每 次 遇 历 训练 数据 之 前 ， 移 对 所 有 的 数据 进 
e , PRE BEIRUT FRM A Em FI SRS E E E 
所 有 的 数据 。 


(3) 如 何 选 取 学 习 速 率 a? 为 了 加 快 收敛 速率 ， 同 时 提高 求解 精 
， 通 常会 采用 衰减 学 习 速 率 的 方案 : 一 开始 算法 采用 较 大 的 学 习 速 
率 ， 当 误差 曲 线 进入 平台 期 后 ， 减 小 学 习 速 率 做 更 精细 的 调整 。 最 优 
的 学 习 速 率 方 案 也 通 肖 需要 调 参 才能 得 到 。 


ai 


mE, TER ORAL) aE E BATRA UIA Be AY [Al pel o 
每 次 更 新 模 型 参数 时 ， 只 需要 处 理 m 个 训练 数据 即 可 ， 其 中 mm 是 一 个 远 
小 于 总 数据 量 M 的 闻 数 ， 这 样 能 够 大 大 加 快 训 练 过 程 。 


梯度 算 子 V 的 读音 


但 凡 学 过 高 等 数学 的 人 ， 对 梯度 算 子 V 都 不 陌生 ， 但 是 这 个 符号 应 该 如 何 来 读 
We? V 符 号 是 1837 年 爱尔兰 物理 学 家 和 数学 家 哈密 尔 顿 (W.R. Hamilton， 建 立 哈密 尔 顿 
力学 和 提出 四 元 数 的 大 牛 ) 首次 提出 的 ， 但 是 并 没有 说 明 V 符 号 的 读音 。 


于 是 ， 到 了 1884 年 ， 当 物理 学 家 威廉 :汤姆 森 (William Thomson， 热 力学 之 父 ) 
想 研 究 一 下 梯度 时 ， 苦 于 不 知 其 读 首 。 当 时 ， 淘 姆 森 教 授 正在 美国 的 约翰 : 霍 普 金 斯 大 
学 (Johns Hopkins University, JHU 个 系列 讲座 ， 于 是 他 就 写 信 问 亚历山大 .格拉 
汉 姆 :贝尔 (Alexander Graham Bell， 电 话 之 父 ) ° 


贝尔 回信 说 ， 早 些 年 ， 他 的 学 长 詹姆斯 克拉克: 麦克 斯 韦 (James Clerk Maxwell, 
造 电 磁 学 的 大 牛 ， 这 里 的 “学 长 ”一 词 是 指 贝尔 和 麦克 斯 韦 都 曾 在 爱丁堡 大 学 受 教育 ) 
经 告诉 贝尔 ， 他 为 Y 发 明了 一 个 十 分 有 趣 的 发 音 ， 叫 作 “ 纳 布 拉 ” (Nabla) 。Nabla 原 
3 来 竖琴 ， 外 形 酷 似 倒 三 角 。 上 有 具体 事情 经 过 如 下 : 


1870 年 ， 麦 克 斯 韦 的 儿 时 好 友 ， 物 理学 家 彼得 . 台 特 (Peter Guthrie Tait， 将 四 元 
数 发 挥 到 化 境 的 大 牛 ) 正在 研究 哈密 尔 顿 的 四 元 数 ， 其 中 有 很 多 V 符 号 。 于 是 麦克 斯 书 
写 信 给 台 特 建议 说 ,“ 亲 爱 的 台 特 ， 如 果 腓 尼 基 的 王子 卡 德 摩 斯 向 腓 尼 基 的 教授 们 问 这 
个 符号 的 读 法 ， 那 么 他 们 肯定 会 说 这 个 符号 读 作 纳 布 拉 。”1871 年 ， 麦 克 斯 韦 写 信 问 台 
特 , “你 还 在 弹 那 个 纳 布 拉 琴 吗 ? ”麦克 斯 韦 还 写 了 一 首 焉 诗 献 给 台 特 ， 诗 的 题目 是 《至 
纳 布 拉 琴 圣手 》 (To the Chief Musician upon Nabla) ° 
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06 ”随机 梯度 下 降 法 的 加 速 


场景 描述 


提 到 深度 学 习 中 的 优化 方法 ， 人 们 通常 会 想到 随机 梯度 下 降 法 。 
但 是 ， 随 机 梯度 下 降 法 并 不 古 万 金 油 ， 有 时候 反而 会 成 为 一 个 坑 。 当 
你 设计 出 一 个 深度 神经 网 络 时 ， 如 果 只 知道 用 随机 梯度 下 降 法 来 训练 
模型 ， 那么 当 你 得 到 一 个 比较 差 的 训练 结果 时 ， 你 可 能 会 放弃 在 这 个 
模型 上 继续 投入 精力 。 然 而 ， 造 成 训练 效果 差 的 真正 原因 ， 可 能 并 不 
征 模 型 的 问题 ， 而 是 随机 梯度 下 降 法 在 优化 过 程 中 失效 了 ， 这 可 能 会 
导致 你 形 失 一 次 新 发 现 的 机 会 。 


知识 点 
梯度 下 降 法 ， 随 机 梯度 下 降 法 


问题 1 ”随机 梯度 下 降 法 失效 的 原因 一 一 REAA T ° 
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下 降 法 偶尔 也 会 失效 ， 无 法 给 出 满意 的 训练 结果 ， 这 是 为 什么 ? 
分 析 与 解答 


为 了 回答 这 个 问题 ， 我 们 先 做 一 个 形象 的 比喻 。 想 象 一 下 ， 你 正 
在 下 山 ， 视 力 很 好 ， 能 看 清 目 己 所 处 位 置 的 坡度 ， 那 么 沿 着 坡 疝 下 
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际 上 可 能 并 不 是 坡 ， 走 上 一 段 时 间 发 现 没 有 下 山 ， 或 者 曲 曲折 折 走 了 
好 多 弯路 才 下 山 。 


类 似 地 ， 批 量 梯度 下 降 法 (Batch Gradient Descent, BGD) 就 好 
比 正常 下 山 ， 而 随机 梯度 下 降 法 就 好 比 蒙 着 眼睛 下 山 。 具 体 介 绍 一 下 
两 种 方法 。 

批量 梯度 下 降 法 在 全 部 训练 集 fx , 世 反 上 计算 准确 的 梯度 ， 即 


PV,f(0;%, 7) +VH6) 


(7.46) 
其 中 f (0;xiyi) 表 示 在 每 个 样本 (xi,y;) 的 损失 函数 ，q(9) 为 正则 项 。 
随机 梯度 下 降 法 则 采样 单个 样本 来 估计 的 当前 梯度 ， 即 
Vo f (0; x, yi) + Veg(0). 
(7.47) 


可 以 看 出 ， 为 了 获取 准确 的 梯度 ， 批 量 梯度 下 降 法 的 每 一 步 都 把 
整个 训练 集 载 入 进来 进行 计算 ， 时 间 花 费 和 内 存 开 销 都 非常 大 ， 无 法 
应 用 于 大 数据 集 、 大 模型 的 场景 。 相 反 ， 随 机 梯度 下 降 法 则 放弃 了 对 
梯度 准确 性 的 追求 ， 每 步 仅 仅 随 机 采样 一 个 〈 或 少量 ) 样本 来 估计 当 
前 梯度 ， 计 算 速度 快 ， 内 存 开销 小 。 但 由 于 每 步 接受 的 信息 量 有 限 ， 
随机 梯度 下 降 法 对 梯度 的 估计 和 常常 出 现 偏差 ， 造 成 目标 函数 曲线 收 例 
得 很 不 稳定 ， 伴 有 剧烈 波动 ， 有 时 甚至 出 现 不 收敛 的 情况 。 图 7.4 展 示 
了 两 种 方法 在 优化 过 程 中 的 参数 轨迹 ， 可 以 看 出 ， 批 量 梯度 下 降 法 稳 
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(a) 批量 梯度 下 降 法 (b) 随机 梯度 下 降 法 
图 7.4 参数 优化 轨迹 


进一步 地 ， 有 人 会 说 深度 学 习 中 的 优化 问题 本 号 束 很 难 ， 有 太 多 
局 部 最 优点 的 陷阱 。 没 蚀 ， 这 些 陷 阱 对 随机 梯度 下 降 法 和 批量 梯度 下 
降 法 都 是 普 训 存在 的 。 但 对 随机 梯度 下 降 法 来 说 ， 可 局 的 不 是 局 部 最 
优 操 ， 而 是 山谷 和 鞍点 两 类 地 形 。 山 合 顾名思义 束 是 狭长 的 山 间 小 
道 ， 左 右 两 边 是 峭壁 ， 鞍点 的 形状 像 是 一 个 马鞍 ， 一 个 方向 上 两 头 
汁 ， 男 一 个 方 同 上 两 尖 垩 ， 而 中 心 区 域 是 一 片 近乎 水 平 的 平地 。 为 什 
么 随机 梯度 下 降 法 最 害 介 遇 上 这 两 类 地 形 呢 ? 在 山谷 中 ， 谁 确 的 梯度 
方 同 是 治 山 道 回 下 ， 稍 有 候 离 焉 会 撞 辐 山 壁 ， 而 粗糙 的 梯度 佑 计 使 得 
它 在 两 山 壁 间 来 回 反 弹 震 沪 ， 不 能 治 山 道 方 网 迅速 下 降 ， 导 致 收敛 不 
稳定 和 收敛 速度 慢 。 在 贰 点 处 ， 随 机 梯度 下 降 法 会 走 入 一 放 乎 坦 之 地 
(此 时 离 最 低 点 还 很 远 ， 故 也 称 plateau) 。 想 象 一 下 蒙 着 双眼 只 凭借 
脚 故 感 沉 坡度， 如 琳 坡 度 很 明显 ， 那 么 基本 能 估计 出 下 山 的 大 致 方 
H: 如 采 坡 度 不 明显 ， 则 很 可 能 走 错 方向 。 同样 ， 在 梯度 近乎 为 零 的 
下 来 。 


问题 2 解决 之 道 一 -惯性 保持 和 环境 感知 。 


难度 : tok ky 


H T EGER RE RRS, MRAR T BEER ON? 提出 了 哪些 
变种 方法 ? 它们 各 有 哪些 特点 ? 


分 析 与 解答 


随机 标 度 下 降 法 本 质 上 是 采用 述 代 方 式 更 新 参数 ， 每 次 迭代 在 当 
前 位 置 的 基础 上 ， 沿 着 某 一 方 同 迈 一 小 步 抵 达 下 一 位 置 ， 然 后 在 下 一 
位 置 重 复 上 述 步 又 。 随 机 梯度 下 降 法 的 更 新 公式 表示 为 


Qa =9,-78, 


(7.48) 


其 中 ， 当 前 估计 的 负 梯 度 -g, 表 示 步 子 的 方向 ， 学 习 速 率 n 控 制 步 幅 。 
改造 的 随机 梯度 下 降 法 仍然 基于 这 个 更 新 公式 。 


=H (Momentum) 方法 
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个 简单 的 思维 实验 。 想 象 一 下 纸 团 在 山 侣 和 鞍点 处 的 运动 轨迹 ， 在 山 
合 中 纸 团 受 重 力作 用 沿 山 道 演 下 ， 两 边 古 不 规则 的 山 壁 ， 纸 团 不 可 避 
免 地 接 在 山 壁 ， 由 于 质量 小 受 山 壁 弹 力 的 干扰 大 ， 从 一 侧 山 壁 反 弹 回 
来 挤 向 力 一 侧 山 壁 ， 结 果 来 回 震 荡 地 深 下 如果 当 纸 团 来 到 鞍点 的 一 
片 平 坦 之 地 时 ， 还 是 由 于 质量 小 ， 速 度 很 快 城 为 零 。 纸 团 的 情况 和 随 
机 桂 度 下 降 法 过 到 的 问题 简 直 如 出 一 办 。 直 观 地 ， 如 果 换 成 一 个 铁 
球 ， 当 沿 山 合 滚 下 时 ， 不 容易 受到 途中 旁 力 的 干扰 ， 轨 迹 会 更 稳 更 
直 ; 当 来 到 鞍点 中 心 处 ， 在 惯性 作用 下 继续 前 行 ， 从 而 有 机 会 促 出 这 
片 平坦 的 陷阱 。 因 此 ， 有 了 动量 方法 ， 模 型 参数 的 迭代 公式 为 


V, = YV FNE, > 


(7.49) 


(7.50) 
具体 来 说 ， 前 进步 伐 -v 由 两 部 分 组 成 。 一 是 学 习 速 率 1 乘 以 当前 估计 
的 梯度 g,， 二 是 带 衰 减 的 前 一 次 步伐 v,_;。 这 里 ， 惯 性 就 体现 在 对 前 一 
次 步伐 信息 的 重 利 用 上 。 类 比 中 学 物理 知识 ， 当 前 梯度 就 好 比 当 前 时 


刻 受 力 产生 的 加 速度 ， 前 一 次 步伐 好 比 前 一 时 刻 的 速度 ， 当 前 步伐 好 
比 当前 时 刻 的 速度 。 为 了 计算 当前 时 刻 的 速度 ， 应 当 考 虑 前 一 时 刻 速 
度 和 当前 加 速度 共同 作用 的 结 末 ， 因 此 v 直 接 依赖 于 w_7 和 g:， 而 不 仅 
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中 学 物理 还 告诉 我 们 ， 刻 画 惯性 的 物理 量 是 动量 ， 这 也 是 算法 名 
字 的 由 来 。 沿 山谷 滚 下 的 铁 球 ， 会 受到 治 坡 道 癌 下 的 力 和 与 左右 山 壁 
碰撞 的 弹力 。 回 下 的 力 稳定 不 变 ， 产 生 的 动量 不 断 素 积 ， 速 度 越 来 越 
快 ; 左右 的 弹力 总 是 在 不 停 切换 ， 动 量 素 积 的 结 采 是 相互 抵消 ， 目 然 
减弱 了 球 的 来 回 震 荡 。 因 此 ， 与 随机 梯度 下 降 法 相 比 ， 动 量 方法 的 收 
敛 速 度 更 快 ， 收 敛 曲 线 也 更 稳定 ， 如 图 7.5 所 示 。 


(a) 不 带动 量 项 (b ) 动量 方法 


图 7.5 ”随机 梯度 下 降 法 中 的 动量 项 


四 AdaGrad 方 法 


惯性 的 获得 是 基于 历史 信息 的 ， 那 么 ， 除 了 从 过 去 的 步伐 中 获得 
一 股子 回 前 冲 的 劲 儿 ， 还 能 获得 什么 呢 ? 我 们 还 期 竺 获得 对 周围 环境 
的 感知 ， 即 使 蒙 上 双眼 ， 依 靠 前 儿 次 迈步 的 感觉 ， 也 应 该 能 判断 出 一 
些 信息 ， 比 如 这 个 方向 忌 古 坑坑洼洼 的 ， 那 个 方向 可 能 很 平坦 。 


随机 梯度 下 降 法 对 环境 的 感知 是 指 在 参数 空间 中 ， 根 据 不 同 参 数 
的 一 些 经 验 性 判断 ， 目 适应 地 确定 参数 的 学 习 速 率 ， 不 同 参 数 的 更 新 
步 幅 古 不 同 的 。 例 如 ， 在 文本 处 理 中 训练 词 租 入 模型 的 参数 时 ， 有 的 
词 或 词组 频 索 出 现 ， 有 的 词 或 词组 则 极 少 出 现 。 数 据 的 稀 焉 性 导致 相 
应 参数 的 梯度 的 稀 想 性 ， 不 频 楷 出 现 的 词 或 词组 的 参数 的 梯度 在 大 多 
数 情况 下 为 零 ， 从 而 这 些 参数 被 更 新 的 频率 很 低 。 在 应 用 中 ， 我 们 而 
望 更 新 频 率 低 的 参数 可 以 拥有 较 大 的 更 新 步 幅 ， 而 更 新 频率 高 的 参数 
的 步 幅 可 以 减 小 。AdaGrad 方 法 采用 “历史 梯度 平方 和 ”来 衡量 不 同 参 
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(7.51) 


其 中 6 表示 (t+1) WAWARA EBNER, gpi RIRA] 
的 梯度 向 量 g, 的 第 i 个 维度 T) 。 另 外 ， 分 母 中 求 和 的 形式 实现 了 
退火 过 程 ， 这 各 很 多 优化 扩 术 中 过 见 的 策略 ， 意 味 着 随 痢 时 间 推 移 ， 


JRRD s +e 越 来 越 小 ， 从 而 保证 了 算法 的 最 终 收敛 。 
u Adam 方 法 


Adam 方 法 将 惯性 保持 和 环境 感知 这 两 个 优点 集 于 一 身 。 一 方面 ， 
Adam 记 录 梯 度 的 一 阶 窍 (first moment) ， 即 过 往 梯度 与 当前 梯度 的 
平均 ， 这 体现 了 惯性 保持 ;， 另 一 方面 ，Adam 还 记录 樟 度 的 二 阶 垂 

(second moment) ， 即 过 往 梯度 平方 与 当前 梯度 平方 的 平均 ， 这 类 似 
AdaGrad 方 法 ， 体 现 了 环境 感知 能 力 ， 为 不 同 参数 产生 目 适 应 的 学 习 
速率 。 一 阶 矩 和 二 阶 矩 采用 类 似 于 滑动 窗口 内 求 平 均 的 思想 进行 融 
合 ， 即 当前 梯度 和 近 一 段 时 间 内 梯度 的 平均 值 ， 时 间 久 远 的 梯度 对 当 
前 平均 值 的 贡献 呈 指数 隧 减 。 具 体 来 说 ， 一 阶 矩 和 二 阶 矩 采用 指数 说 
退 平均 (exponential decay average) 技术 ， 计 算 公 式 为 


m, = Am, T a -ph )g,, 


(7352) 
v, = By, tU- AE, 
(7.53) 
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QU (Al BBE A MEE? ME Fits] 由 于 当下 
梯度 g, 征 随机 采样 得 到 的 估计 结果 ， 因 此 更 关注 它 在 统计 意义 上 的 期 
望 ;二 阶 矩 相当 于 估计 焉 g: ]， 这 点 与 AdaGrad 方 法 不 同 ， 不 是 g2 从 开 


始 到 现在 的 加 和 ， 而 是 它 的 期 望 。 它 们 的 物理 意义 是 ， 当 |Imj| 大 且 v, 大 
上 时， 梯度 大 有 旦 稳定 ， 这 表明 人 壳 到 一 个 明显 的 大 坡 ， 前 进 方 同 明确 ; 
当 ||mi| 趋 于 零 且 v, 大 时 ， 梯 度 不 稳定 ， 表 明 可 能 过 到 一 个 峡谷 ， 容 易 引 
起 反弹 震荡 ， 当 |Iml| 大 且 v 趋 于 零 时 ， 这 种 情况 不 可 能 出 现 ， 当 ||myl| 趋 
于 零 量 Vv, 趋 于 零 时 ， 梯 度 趋 于 零 ， 可 能 到 达 局 部 最 低 点 ， 也 可 能 走 到 
一 片 坡度 极 组 的 平地 ， 此 时 要 避免 陷入 平原 (plateau) ° Yb, Adam 
方法 还 考虑 了 m,，v, 在 零 初 始 值 情况 下 的 偏 置 矫正 。 具 体 来 说，Adam 
的 更 新 公式 为 


6,4 = 以 一 = 
+e 
(7.54) 
m, a Vb 
m, = t v, E t 
其 中 ， l- B, I= 9 
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除了 上 述 三 种 随机 桂 度 下 降 法 变种 ， 人 研究 者 还 提出 了 以 下 几 种 方 
1% © 


(1) Nesterov Accelerated Gradient。 该 方法 扩展 了 动量 方法 ， 顺 
着 惯性 方向 ， 计 算 末 来 可 能 位 置 处 的 梯度 而 非 当 前 位 置 的 梯度 ， 这 
个 “提前 量 ” 的 设计 让 算法 有 了 对 前 方 环境 预 判 的 能 


(2) AdaDelta 和 RMSProp。 这 两 个 方法 非常 类 似 ， 是 对 AdaGrad 
方法 的 改进 。AdaGrad 方 法 采用 所 有 历史 梯度 平方 和 的 平方 根 做 分 
母 ， 分母 随时 间 单 调 递 增 ， 产生 的 自 适 应 学 习 速 率 随 时间 有 惨 减 的 速度 
过 于 激进 。 针 对 这 个 问题 ，AdaDelta 和 RMSProp 采 用 指数 衰退 平均 的 
计算 方法 ， 用 过 往 梯 度 的 均值 代替 它们 的 求 和 。 


(3) AdaMax。 该 方法 是 基于 Adam 方 法 的 一 个 变种 方法 ， 对 梯度 
平方 的 处 理由 指数 衰退 平均 改 为 指数 嘉 退 求 最 大 值 。 


(4) Nadam。 该 方法 可 看 成 Nesterov Accelerated Gradient hy 44 
Adam ° 
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场景 描述 


“LI1 正 则 化 与 稀疏 性 ?是 一 道 在 算法 工程 师 面试 时 非常 流行 的 题 
目 。 这 道 题 能 够 从 细节 入 手 ， 考 察 面试 者 对 于 机 器 学 习 模型 各 个 相关 
环节 的 了 解 程度 。 很 多 面试 者 能 给 出 一 些 大 概 的 理解 ， 但 是 要 想 深入 
EL GER GEAR LSE «FLTC a 
AEE ° 


在 正式 开始 之 前 ， 我 们 对 问题 做 进一步 的 解释 。 有 一 些 初学 者 可 
能 会 对 问题 本 映 存 在 疑问 一 一 为 什么 布 望 模 型 参数 具有 黎 玖 性 呢 ? 稀 
芯 性 ， 说 日 了 吏 是 模型 的 很 多 参数 定 0。 这 相当 于 对 模型 进行 了 一 次 特 
征 选择 ， 只 留 下 一 些 比较 重要 的 特征 ， 提 高 模型 的 泛 化 能 力 ， 降 低 过 
拟 合 的 可 能 。 在 实际 应 用 中 ， 机 融 学 习 模 型 的 输入 动 辑 儿 百 上 千 万 
维 ， 稀 焉 性 束 显 得 更 加 重要 ， 谁 也 不 布 望 把 这 上 于 万 维 的 特征 全 部 搬 
到 线 上 去 。 如 果 你 真 的 有 要 这 样 做 的 话 ， 人 负责 线 上 系统 的 同事 可 能 会 联 
合 运 维 的 同学 一 起 拿 着 板 巷 来 找 你 了 。 要 在 线 上 至 秒 级 的 啊 应 时 间 要 
求 下 完成 千 万 维特 征 的 提取 以 及 模型 的 预测 ， 还 要 在 分 布 式 环境 下 在 
内 存 中 驻 留 那么 大 一 个 模型 ， 佑 计 他 们 只 能 高 呼 “ 臣 雪 做 不 到 啊 ”。 知 
道 了 面试 官 为 什么 要 问 这 个 问题 后 ， 下 面 进 入 正题 ， 寻 找 L1 正 则 化 产 
生 稀 政 解 的 原因 。 


问题 LI 正则 化 使 得 模型 参数 具有 黎 尽 性 的 原理 是 什么 ? 


难度 ， 太 交友 六 六 
分 析 与 解答 


n 角度 1: 解 空间 形状 


机 器 学 习 的 经 典 之 作 给 出 的 解释 无 疑 是 权威 且 直 观 的 中 ， 面 试 者 
给 出 的 答案 多 数 也 是 从 这 个 角度 出 发 的 。 在 二 维 的 情况 下 ， 黄 色 的 部 
分 是 L2 和 LI1 正 则 项 约束 后 的 解 至 间 ， 绿 色 的 等 高 线 是 串 优 化 问题 中 目 
标 芳 数 的 等 高 线 ， 如 图 7.6 所 示 。 由 图 可 知 ，L2 正 则 项 约束 后 的 解 空 间 
征 圆 形 ， 而 LI 正则 项 约束 的 解 空 间 是 多 边 形 。 显 然 ， 多 边 形 的 解 空 间 
更 容易 在 尖 角 处 与 等 高 线 伴 撞 出 黎 芷 解 。 


(a) L2 正则 化 对 应 的 解 空间 (b) L1 正 则 化 对 应 的 解 空间 


图 7.6 ”LIL2 正 则 化 约束 与 L1 正 则 化 约束 


上 述 这 个 解释 无 疑 是 正确 的 ， 但 却 不 够 精确 ， 面 试 者 往往 回答 过 
于 第 统 ， 以 至 于 忽视 了 几 个 关键 问题 。 比 如 ， 为 什么 加 入 正则 项 就 是 
定义 了 一 个 解 空间 约束 ? 为 什么 L1 和 L2 的 解 空间 是 不 同 的 ? 面试 官 如 
果 深 究 下 去 ， 很 多 面试 者 难以 给 出 满意 的 答案 。 其 实 可 以 通过 KKT 条 
件 给 出 一 种 解释 。 
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取 值 空间 从 而 防止 过 拟 合 ， 我 们 为 该 最 优化 问题 加 上 一 个 约束 ， 就 是 
w 的 L2 范 数 的 平方 不 能 大 于 m: 
min Yo, —-ws), 


st. ||w|p><m. 


(7.55) 
为 了 求解 带 约 束 条 件 的 凸 优化 问题 ， 写 出 拉 格 朗 日 函数 
DO, —w Xx) +A(|| will -m). 
(7.56) 


Pwt AA TP Fl eA AAT (TA AeA, UREKKTATE, “EA 
应 满足 


| =V, [So -wx A wl 加 


o< 2’. 


(7.57) 


仔细 一 看 ， 第 一 个 式 子 不 吏 是 w* 为 带 L2 正 则 项 的 优化 问题 的 最 优 解 的 
条 件 嘛 ， 而 和 # 殉 是 L2 正 则 项 前 面 的 正则 参数 。 


这 时 回头 再 看 开头 的 问题 束 清 晰 了 。L2 正 则 化 相当 于 为 参数 定义 
了 一 个 圆 形 的 解 空 间 (因为 必须 保证 L2 范 数 不 能 大 于 m) ， 而 L1 正 则 
化 相当 于 为 参数 定义 了 一 个 棱 形 的 解 空间 。 如 采 原 问题 目标 函数 的 最 
优 解 不 是 恰好 落 在 解 空 间 内 ， 那 么 约束 条 件 下 的 最 优 解 一 定 是 在 解 至 
间 的 边界 上 ， 而 L1“ 校 角 分 明 ” 的 解 空 间 显然 更 容易 与 目标 函数 等 高 线 
在 角 点 碰撞 ， 从 而 产生 稀 臣 解 。 


a 角度 2: RABI 


AR A BL A aS RELI HEX BRR ° 
仅 考 虑 一 维 的 情况 ， 多 维 情况 是 类 似 的 ， 如 图 7.7 所 示 。 假 设 标 线 是 原 
A HESKI HRR, TAMER EERE, BA Mw 值 非 
O° 


| \ ay L1 正则 化 
的 目标 函数 
| 
带 L2 正则 化 
A i 


0-5 
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图 7.7 ”函数 曲线 图 


首先 ， 考 虑 加 上 L2 正 则 化 项 ， 目 标 函 数 变 成 DC(w)+Cw<， 其 函数 曲 
线 为 黄色 。 此 时 ， 最 小 值 点 在 黄 点 处 ， 对 应 的 w 的 绝对 值 减 小 了 ， 但 
仍然 非 0。 


然后 ， 考 虑 加 上 L1 正 则 化 项 ， 目 标 函 数 变 成 DC(w)+Clw|， 其 函数 曲 
线 为 绿色 。 此 时 ， 最 小 值 点 在 红 点 处 ， 对 应 的 w 是 0， 产 生 了 称臣 性 。 


产生 上 述 现象 的 原因 也 很 直观 。 加 入 L1 正 则 项 后 ， 对 帝 正 则 项 的 
目标 函数 求 导 ， 正 则 项 部 分 产生 的 导数 在 原点 左边 部 分 是 -C， 在 原点 
右边 部 分 是 C， 因 此 ， 只 要 原 目 标 函 数 的 导数 绝对 值 小 于 C， 那 么 市 正 
则 项 的 目标 函数 在 原点 左边 部 分 始终 是 递减 的 ， 在 原点 右边 部 分 始终 
征 递增 的 ， 最 小 值 点 目 然 在 原点 处 。 相 反 ，L2 正 则 项 在 原点 处 的 导数 
征 0， 只 要 原 目标 函 数 在 原点 处 的 导数 不 为 0， 那 么 最 小 值 点 束 不 会 在 
— PR AL2 RA vat) w 28 0 HEIER, IAEE H A TEA m 
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a 角度 3: 贝 叶 斯 先 验 


从 贝 叶 斯 的 角度 来 理解 L1 正 则 化 和 L2 正 则 化 ， 简 单 的 解释 是 ，L1 
正则 化 相当 于 对 模型 参数 w 引 入 了 拉 普 拉 斯 先 验 ，L2 正 则 化 相当 于 引 
入 了 高 斯 先 验 ， 而 拉 普 拉 斯 先 验 使 参数 为 0 的 可 能 性 更 大 。 


图 7.8 是 高 斯 分 布 曲线 图 。 由 图 可 见 ， 高 斯 分 布 在 极 值 点 (0 点 ) 
处 是 平 消 的 ， 也 就 是 高 斯 先 验 分 布 认为 w 在 极 值 点 附近 取 不 同 值 的 可 
能 性 是 接近 的 。 这 殉 是 L2 正 则 化 只 会 让 w 更 接近 0 点 ， 但 不 会 等 于 0 的 
原因 。 
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图 7.8 ”高 斯 分 布 曲线 图 


相反 ， 图 7.9 是 拉 普 拉 斯 分 布 曲线 图 。 由 图 可 见 ， 拉 普 拉 斯 分 布 在 
极 值 点 (0 点 ) 处 是 一 个 尖峰 ， 所 以 拉 普 拉 斯 先 验 分 布 中 参数 w 取 值 为 
0 的 可 能 性 要 更 高 。 在 此 我 们 不 再 给 出 Ll1 和 L2 正 则 化 分 别 对 应 拉 普 拉 
斯 先 验 分 布 和 高 斯 完 验 分 布 的 详细 证 明 。 


图 7.9 拉 普 拉 斯 分 布 曲线 图 


第 8 章 ”采样 


BAB: “AKI, KmA”, FCP OR EASA © OK 
样 ， 顾名思义 ， 就 十 从 特定 的 概率 分 布 中 抽取 相应 样本 点 的 过 程 。 采 
样 在 机 器 学 习 中 有 着 非常 重要 的 应 用 : 它 可 以 将 复杂 的 分 布 仙 化 为 离 
散 的 样本 点 ;可 以 用 重 采样 对 样本 集 进 行 调 整 以 更 好 地 适应 后 期 的 模 
型 学 习 ; 可 以 用 于 随机 模拟 以 进行 复杂 模型 的 近似 求解 或 推理 。 另 
外 ， 采 样 在 数据 可 视 化 方面 也 有 很 多 应 用 ， 可 以 帮助 人 们 快速 、 直 观 
地 了 解数 据 的 结构 和 特性 。 


对 于 一 些 人 简单 的 分 布 ， 如 均匀 分 布 、 高 斯 分 布 等 ， 很 多 编程 语言 
里 面 都 有 直接 的 采样 函数 。 然 而 ， 即 使 是 这 些 简单 分 布 ， 其 采样 过 程 
也 并 不 是 显而易见 的 ， 仍 需要 精心 设计 。 对 于 比较 复杂 的 分 布 ， 往 往 
并 没有 直接 的 采样 函数 可 供 调用 ， 这 时 束 需 要 其 他 更 加 复杂 的 采样 方 
法 。 因 此 ， 对 采样 方法 的 深入 理解 是 很 有 必要 的 。 


本 章 会 通过 一 系列 的 问题 与 解答 来 展现 采样 的 相关 知识 ， 包 括 采 
样 的 作用 、 篆 见 的 采样 方法 、 采 样 在 一 些 分 布 或 模型 上 的 具体 实现 ， 
以 及 采样 的 应 用 。 
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01 采样 的 作用 


场景 描述 


采样 是 从 特定 的 概率 分 布 中 抽取 对 应 的 样本 点 。 那 么 ， 这 些 抽取 
出 来 的 样本 有 什么 用 呢 ? 或 者 说 ， 为 什么 需要 采样 ? 采样 可 以 用 来 解 
决 什么 问题 ? 


知识 点 
采样 ， 机 器 学 习 ， 概 率 统计 


问题 举例 说 明 采 样 在 机 器 学 习 中 的 应 用 。 


难度 : kN 


分 析 与 解答 


采样 本 质 上 是 对 随机 现象 的 模拟 ， 根 据 给 定 的 概率 分 布 ， 来 模拟 
产生 一 个 对 应 的 随机 事件 。 采 样 可 以 让 人 们 对 随机 事件 及 其 产生 过 程 
有 更 直观 的 认识 。 例 如 ， 通 过 对 二 项 分 布 的 采样 ， 可 以 模拟 “ 抛 硬 币 出 
现 正面 还 是 反面 ”这 个 随机 事件 ， 进 而 模拟 产生 一 个 多 次 抛 硬币 出 现 的 
结 采 序列 ， 或 者 计算 多 次 抛 硬币 后 出 现 正面 的 频率 。 


另 一 方面 ， 采 样 得 到 的 样本 集 也 可 以 看 作 是 一 种 非 参数 模型 ， 即 
用 较 少 量 的 样本 点 (经 验 分 布 ) 来 近似 总 体 分 布 ， 并 刻画 总 体 分 布 中 
的 不 确定 性 。 从 这 个 角度 来 说 ， 采 样 其 实 也 是 一 种 信息 降 维 ， 可 以 起 


到 简化 问题 的 作用 。 例 如 ， 在 训练 机 器 学 习 模 型 时 ， 一 般 想 要 优化 的 
征 模型 在 总 体 分 布 上 的 期 望 损失 (期 望 风险 ) ， 但 总 体 分 布 可 能 包含 
无 穷 多 个 样本 点 ， 要 在 训练 时 全 部 用 上 几乎 是 不 可 能 的 ， 采 集 和 存储 
样本 的 代价 也 非常 大 。 因 此 ， 一 般 采 用 总 体 分 布 的 一 个 样本 集 来 作为 
总 体 分 布 的 近似 ， 称 之 为 训练 集 ， 训 练 模型 的 时 候 是 最 小 化 模型 在 训 
练 集 上 损失 函数 〈 经 验 风 险 ) 。 同 理 ， 在 评估 模型 时 ， 也 是 看 模型 在 
另外 一 个 样本 集 (测试 集 ) 上 的 效果 。 这 种 信息 降 维 的 特性 ， 使 得 采 
样 在 数据 可 视 化 方面 也 有 很 多 应 用 ， 它 可 以 帮助 人 们 快速 、 直 观 地 了 
解 总 体 分 布 中 数据 的 结构 和 特性 。 


对 当前 的 数据 集 进行 重 采样 ， 可 以 充分 利用 已 有 数据 集 ， 控 掘 更 
多 信息 ， 如 自助 法 和 刀 切 法 (Jack knife) ， 通 过 对 样本 多 次 重 采样 来 
估计 统计 量 的 偏差 、 方 差 等 。 另 外 ， 利 用 重 采样 技术 ， 可 以 在 保持 特 
定 的 信息 下 (目标 信息 不 丢失 ) ， 有 意识 地 改变 样本 的 分 布 ， 以 更 适 
应 后 续 的 模型 训练 和 学 习 ， 例 如 利用 重 采样 来 处 理 分 类 模型 的 训练 样 
本 不 均衡 问题 。 


此 外 ， 很 多 模型 由 于 结构 复杂 、 含 有 隐 变 量 等 原因 ， 导 致 对 应 的 
求解 公式 比较 复杂 ， 没 有 显 式 解析 解 ， 难 以 进行 精确 求解 或 推理 。 在 
这 种 情况 下 ， 可 以 利用 采样 方法 进行 随机 模拟 ， 从 而 对 这 些 复杂 模型 
进行 近似 求解 或 推理 。 这 一 般 会 转化 为 菜 些 函 数 在 特定 分 布下 的 积分 
或 期 望 ， 或 者 是 求 某 些 随机 变量 或 参数 在 给 定数 据 下 的 后 验 分 布 等 。 
例如 ， 在 隐 狄 利克 雷 模 型 和 深度 玻 尔 效 曼 机 (Deep Boltzmann 
Machines, DBM) 的 求解 过 程 中 ， 由 于 含有 隐 变 量 ， 直 接 计算 比较 困 
难 ， 此 时 可 以 用 吉 布 斯 采样 对 隐 变 量 的 分 布 进行 采样 。 如 果 对 于 贝 叶 
斯 模型 ， 还 可 以 将 隐 变 量 和 参数 变量 放 在 一 起 ， 对 它们 的 联合 分 布 进 
行 采样 。 注 意 ， 不 同 于 一 些 确定 性 的 近似 求解 方法 (如 变 分 贝 叶 斯 方 
S ， 基 于 采样 的 随机 模拟 方法 是 数值 型 的 近似 求解 方 
y o 
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采样 在 机 器 学 习 中 还 有 很 多 其 他 应 用 ， 在 实际 面试 中 ， 面 试 官 可 
能 会 让 面试 者 大 致 说 一 下 几 种 常见 的 应 用 ， 然 后 挑 一 个 面试 者 比较 熟 


悉 的 应 用 具体 交谈 。 例 如 ， 如 何 用 目 助 法 或 刀 切 法 来 估计 侦 关 、 方 关 
等 ， 隐 和 狄 利 元 雷 模型 和 深度 玻 尔 兹 曼 机 具体 十 去 么 用 吉 布 斯 采样 进行 
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02 ”均匀 分 布 随机 数 


场景 描述 


均 习 分 布 是 指 整个 样本 空间 中 的 每 一 个 样本 点 对 应 的 概率 ( 密 
BE) 都 是 相等 的 。 根 据 样 本 空间 是 否 连 续 ， 又 分 为 离散 均匀 分 布 和 连 
续 均匀 分 布 。 均 匀 分 布 可 以 算 作 是 最 位 单 的 概率 分 布 。 从 均匀 分 布 中 
进行 采样 ， 即 生成 均匀 分 布 随机 数 ， 几 乎 是 所 有 采样 算法 都 需要 用 到 
的 基本 操作 。 然 而 ， 即 使 征 如 此 简单 的 分 布 ， 其 采样 过 程 也 并 不 是 显 
然 的 ， 需 要 精心 设计 一 定 的 策略 。 


知识 点 
概率 统计 ， 线 性 同 余 


问题 ”如何 编程 实现 均匀 分 布 随机 数 生成 器 ? 


MEE: Here 


分 析 与 解答 


首先 需要 明确 的 征 ， 计 算 机 程序 都 是 确定 性 的 ， 因 此 并 不 能 产生 
真正 意义 上 的 完全 均匀 分 布 随机 数 ， 只 能 产生 盆 随 机 数 〈 伪 随机 数 是 
指 这 些 数字 虽然 是 通过 确定 性 的 程序 产生 的 ， 但 是 它们 能 通过 近似 的 
随机 性 测试 ) 。 另 外 ， 由 于 计算 机 的 存储 和 计算 单元 只 能 处 理 离散 状 
态 值 ， 因 此 也 不 能 产生 连续 均匀 分 布 随机 数 ， 只 能 通过 离散 分 布 来 通 
近 连 续 分 布 (用 很 大 的 离散 空间 来 提供 足够 的 精度 ) 。 


一 般 可 采用 线性 同 余 法 (Linear Congruential Generator) 来 生成 离 
散 均 匀 分 布 伪 随 机 数 ， 计 算 公 式 为 


X11=a°X+c(modm) 
(8.1) 


也 就 是 根据 当前 生成 的 随机 数 x, 来 进行 适当 变换 ， 进 而 产生 下 一 次 的 
随机 数 x,,1。 初 始 值 xo 称 为 随机 种 子 。 式 (8.1) 得 到 的 是 区 间 [0,m-1] 
上 的 随机 整数 ， 如 果 想 要 得 到 区 间 [0,1] 上 的 连续 均匀 分 布 随 机 数 ， 用 
x 除 以 m 即 可 。 


可 以 看 出 ， 线 性 同 余 法 得 到 的 随机 数 并 不 是 相互 独立 的 〈 下 一 次 
的 随机 数 根据 当前 随机 数 来 产生 ) 。 此 外 ， 根 据 式 (8.1) ， 该 算法 最 
多 只 能 产生 m 个 不 同 的 随机 数 ， 实 际 上 对 于 特定 的 种 子 ， 很 多 数 无 法 
取 到 ， 循 环 周期 基本 达 不 到 m。 如 果 进 行 多 次 操作 ， 得 到 的 随机 数 序 
列 会 进入 循环 周期 。 因此， 一 个 好 的 线性 同 余 随机 数 生成 器 ， 要 让 其 
循环 周期 尽 可 能 接近 mn， 这 束 需 要 精心 选择 合适 的 乘法 因 了 于 a 和 模 数 mm 
(需要 利用 代数 和 群 理论 ) 。 有 具体 实现 中 有 多 种 不 同 的 版 本 ， 例 如 gcc 
中 采用 的 glibc 版 本 : 


m = -1, 
a=1103515245, 
c =12345, 
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机 数 ， 真 正 的 随机 数 只 会 存在 于 目 然 用 的 物理 现象 中 ， 比 如 放射 性 物 
质 的 嘉 变 ， 温 度 、 气 流 的 随机 扰动 等 。 有 一 些 网 站 可 以 提供 基于 大 目 
然 的 随机 现象 的 随机 生成 右 ， 有 兴趣 的 读者 可 以 近 斌 一人。 图 8.1 是 通 
过 大 气 品 声 来 产生 随机 数 ， 可 以 说 是 “货真价实 ”的 真 随机 数 生成 右 
Te 


图 8.1 闪电 产生 大 气 噪 声 
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面试 时 ， 面 试 官 还 可 能 会 针对 线性 同 余 法 进行 深入 提问 ， 比 如 ， 
线性 同 余 法 中 的 随机 种 子 一 般 如 何 选 定 ” 如 采 需 要 产生 高 维 样本 或 大 
量 样本 ， 线 性 同 余 法 会 存在 什么 问题 ? 如 何 证 明 上 述 线性 同 余 发 生 顷 
得 到 的 序列 可 以 近似 为 均匀 分 布 〈 伪 随机 数 ) ? 


03 ”常见 的 采样 方法 


场景 描述 


对 于 一 个 随机 变量 ， 通 常用 概率 密度 函数 来 刻画 该 变量 的 概率 分 
布 特性 。 具 体 来 说 ， 给 定 随机 变量 的 一 个 取 值 ， 可 以 根据 概率 密度 函 
数 来 计算 该 值 对 应 的 概率 (密度 ) 。 反 过 来 ， 也 可 以 根据 概率 密度 画 
数 提供 的 概率 分 布 信息 来 生成 随机 变量 的 一 个 取 值 ， 这 融 是 采样 。 因 
此 ， 从 茶 种 意义 上 来 说 ， 采 样 是 概率 密度 函数 的 过 回应 用 。 与 根据 概 
率 密 度 函 数 计 算 样 本 点 对 应 的 概率 值 不 同 ， 采 样 过 程 往往 没有 那么 直 
返 ， 通 常 需 要 根据 竺 采样 分 布 的 具体 特点 来 选择 合适 的 采样 策略 。 


知识 点 
EMRI, IERIE, BAERE 


问题 ” 抛 开 那些 针对 特定 分 布 而 精心 设计 的 采样 方法 ， 说 
一 些 你 所 知道 的 通用 采样 方法 或 采样 策略 ， 简 单 描述 它们 
的 主要 思想 以 及 具体 操作 步骤 。 


TERE: etek vic sk 
分 析 与 解答 


几乎 所 有 的 采样 方法 都 是 以 均匀 分 布 随机 数 作为 基本 操作 。 均 包 
分 布 随机 数 一 般 用 线性 同 余 法 来 产生 ， 上 一 小 三 有 具体 介绍 ， 这 里 不 
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首先 假设 已 经 可 以 生成 [0,1] 上 的 均匀 分 布 随机 数 。 对 于 一 些 简 单 
的 分 布 ， 可 以 直接 用 均匀 采样 的 一 些 扩展 方法 来 产生 样本 点 ， 比 如 有 
限 离散 分 布 可 以 用 轮 盘 赌 算法 来 采样 。 然 而 ， 很 多 分 布 一 般 不 好 直接 
进行 采样 ， 可 以 考虑 函数 变换 法 。 一 般 地 ， 如 果 随 机 变量 x 和 u 存 在 变 
换 关系 4 = 2(CO0)， 则 它们 的 概率 密度 函数 有 如 下 关系 : 


p(u)|? ()|=p(x) . 
(8.2) 


因此 ， 如 果 从 目标 分 布 p(x) 中 不 好 采样 x， 可 以 构造 一 个 变换 
u = 9(X)， 使 得 从 变换 后 的 分 布 p(w) 中 采样 u 比 较 容易 ， 这 样 可 以 通过 
先 对 v 进 行 采样 然后 通过 反 画 数 x= 9 (wu) 来 间接 得 到 x。 如 果 是 高 维 空 
间 的 随机 向 量 ， 则 9'(X) 对 应 Jacobian 行 列 式 。 

特别 地 ， 在 函数 变换 法 中 ， 如 果 变 换 关 系 %() 是 x 的 累积 分 布 函 数 
的 话 ， 则 得 到 所 谓 的 逆 变 换 采 样 (Inverse Transform Sampling) 。 假 设 
待 采 样 的 目标 分 布 的 概率 密度 函数 为 p(x)， 它 的 昧 积分 布 函 数 为 


u = D(x) = ee p(t)dt 


则 逆 变 换 采 样 法 按 如 下 过 程 进 行 采 样 : 
(1) 从 均匀 分 布 U(0,D) 产 生 一 个 随机 数 u;; 


(2) 计算 5 =@ (Ww)， 其 中 8B”(*) 是 累积 分 布 画 数 的 逆 画 数 。 


根据 式 (8.2) 和 式 (8.3) ， 上 述 采 样 过 程 得 到 的 x 服从 p(x) 分 布 。 图 
8.2 是 朔 变换 采样 法 的 示意 图 。 


图 8.2” 逆 变 换 采 样 示意 图 


如 宁 竺 采样 的 目标 分 布 的 累积 分 布 函 数 的 逆 函 数 无 法 求解 或 者 不 
容易 计算 ， 则 不 适用 于 逆 变 换 采 样 法 。 此 时 可 以 构造 一 个 容易 采样 的 
参考 分 布 ， 先 对 参考 分 布 进行 采样 ， 然 后 对 得 到 的 样本 进行 一 定 的 后 
处 理 操作 ， 使 得 最 终 的 样本 服从 目标 分 布 。 常 见 的 拒绝 采样 

(Rejection Sampling) 、 重 要 性 采样 (Importance Sampling) ， 就 属 
于 这 类 采样 算法 ， 下 面 分 别 简单 介绍 它们 的 采样 过 程 。 

拒绝 采样 ， 又 叫 接 受 / 拒 绝 采 样 (Accept-Reject Sampling) ° XF 
目标 分 布 p(x)， 选 取 一 个 容易 来 样 的 参考 分 布 q(x)， 使 得 对 于 任意 x 都 
P(x) 三 M。gq(x)， 则 可 以 按 如 下 过 程 进行 采样 : 

(1) 从 参考 分 布 q(x) 中 随机 抽取 一 个 样本 x;。 
(2) 从 均匀 分 布 U(0,1) 产 生 一 个 随机 数 u;。 


p(x) 
(3) WR” Maa), MEZER; 否则 拒绝 ， 重 新 进行 步骤 
(1) ~ (3) ， 直 到 新 产生 的 样本 x 被 接受 。 


通过 简单 的 推导 ， 可 以 知道 最 终 得 到 的 x; 服 从 目标 分 布 p(x)。 如 图 
8.3 (a) 所 示 ， 拒 绝 采 样 的 关键 是 为 目标 分 布 p(x) 选 取 一 个 合适 的 包 络 
KAM qa): 包 络 函数 越 紧 ， 每 次 采样 时 样本 被 接受 的 概率 越 大 ， 采 
样 效 率 越 高 。 在 实际 应 用 中 ， 为 了 维持 采样 效率 ， 有 了 时 很 难 寻 找 一 个 
解析 形式 的 go ， 因 此 延伸 出 了 目 适 应 拒绝 采样 (Adaptive Rejection 
Sampling) ， 在 目标 分 布 是 对 数 凹 函数 时 ， 用 分 段 线 性 函数 来 覆盖 目 
标 分 布 的 对 数 ]n p(x)， 如 图 8.3 ©) 所 示 ， 这 里 不 再 细 述 。 
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(b) 自 适 应 拒绝 采样 


图 8.3 ”拒绝 采样 示意 图 


很 多 时 候 ， 采 样 的 最 终 目 的 并 不 是 为 了 得 到 样本 ， 而 是 为 了 进行 
一 些 后 续 任 务 ， 如 预测 变量 取 值 ， 这 通 闻 表 现 为 一 个 求 丽 数 期 望 的 形 
BG? 36 a 于 计算 函数 fx) 在 目标 分 布 p(x) 上 的 积分 (函数 
期 望 ) ， 即 


ELS] = [AQP 


(8.4) 
5, HONEA BBS qo), ya, 则 有 
ELS I= [Awad 
(8.5) 
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q(x) 中 抽取 N 个 样本 {x;}， 然 后 利用 如 下 公式 来 估计 Ef: 


ELf\~ EyLf]= of w(x). 


(8.6) 


图 8.4 是 重要 性 采样 的 示意 图 。 如 有 果 不 需 要 计算 函数 积分 ， 只 想 从 目标 
分 布 p(x) 中 采样 出 若干 样本 ， 则 可 以 用 重要 性 重 采 样 (Sampling- 
Importance Re-sampling, SIR) ， 先 在 从 参考 分 布 q(x) 中 抽取 NN 个 样本 
{xX; }， 然 后 按照 它们 对 应 的 重要 性 权重 {w(x)} 对 这 些 样本 进行 重新 采 
Re (这 是 一 个 简单 的 针对 有 限 离散 分 布 的 采样 ， 最 终 得 到 的 样本 服 
从 目标 分 布 p(x)。 


图 8.4 ”重要 性 采样 示意 图 


在 实际 应 用 中 ， 如 采 是 高 维 空间 的 随机 向 量 ， 拒 绝 末 样 和 重要 性 
重 采 样 经 常 难以 寻找 合适 的 参考 分 布 ， 采 样 效率 低下 (样本 的 接受 概 
率 小 或 重要 性 权重 低 ) ， 此 时 可 以 考虑 马尔 可 夫 蒙 特 卡 洛 采 样 法 ， 常 
见 的 有 Metropolis-Hastings 采 样 法 和 天 布 斯 采样 法 。 后 续 会 专门 介绍 马 
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.总 结 与 扩展 ， 
上 述 解 答 中 我 们 只 是 列举 了 几 个 最 常用 的 采样 算法 ， 人 简单 介绍 了 


它们 的 具体 操作 。 在 实际 面试 时 ， 面 试 官 可 能 会 让 面试 者 选择 其 最 熟 
悉 的 某 个 采样 算法 来 回答 ， 然 后 较 深入 地 问 一 下 该 算法 的 理论 证 明 、 


优 缺 点 、 相 关 扩展 和 应 用 等 。 例 如 ， 为 何 拒绝 采样 或 重要 性 采样 在 高 
维 空间 中 会 效率 低下 而 无 法 使 用 ? 如 何 从 一 个 不 规则 多 边 形 中 随机 取 


= 


04 ”高 斯 分 布 的 采样 


场景 描述 


高 其 分布， 又 称 正 态 分 布 ， 是 一 个 在 数学 、 物 理 及 工程 领域 都 非 
常 重要 的 概率 分 布 。 在 实际 应 用 中 ， 经 营 需 要 对 噩 斯 分 布 进行 采样 。 
里 然 在 很 多 编程 语言 中 ， 直 接 调 用 某 个 钞 数 束 可 以 生成 高 斯 分 布 随 机 
数 ， 但 了 解 其 中 的 具体 算法 能 够 加 深 我 们 对 相关 概率 统计 知识 的 理 
解 。 此 外 ， 高 斯 分 布 的 采样 方法 有 多 种 ， 通 过 展示 不 同 的 采样 方法 在 
Te 
观 的 印象 。 


知识 点 
高 斯 分 布 ，Box-Mujller 算 法 ， 拒 绝 采样 


问题 如 何 对 高 斯 分 布 进行 采样 ? 


难度 ， 太 交友 立交 
分 析 与 解答 


首先 ， 假 设 随机 变量 z 服 从 标准 正 态 分 布 N(0,1)， 令 


X=0*Z+H , 


WU ARIES p> JEN RENo) ° 因此， 任意 高 斯 分 布 
都 可 以 由 标准 正 态 分 布 通过 拉 伸 和 平移 得 到 ， 所 以 这 里 只 考虑 标准 正 
态 分 布 的 采样 。 篆 见 的 采样 方法 有 逆 变 换 法 、 拒 绝 和 采样 、 重 要 性 采 
样 、 马 尔 可 夫 索 特 卡 洛 采样 法 等 。 具 体 到 高 斯 分 布 ， 要 如 何 采 样 呢 ? 


如 打 直 接 用 逆 变 换 法 ， 基 本 操作 步骤 为: 
(1) 产生 [0,1] 上 的 均匀 分 布 随机 数 u。 
(2) 令 z=v2erf "(2u-D， 则 z 服 从 标准 正 态 分 布 。 其 中 erf (C) 是 高 


Wine a, Ce bE EAN MI RD Ts SE nd BOP ei 
变换 后 的 形式 ， 定 义 如 下 


erf (x) = e” dt 


as 
(8.8) 


El aR HZ ate BOK fer OEK, IRIN SB, 
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逆 操 作 ，Box-Muller 算 法 提出 了 如 下 解决 方案 既然 单个 高 斯 分 布 的 
索 计 分 布 贸 数 不 好 求 逆 ， 那 么 两 个 独立 的 融 斯 分 布 的 联合 分 布 呢 ? 假 
aaa eae 它们 的 联合 概率 密度 


x +y? 


1 = 
x,y)=—e ? 
P(x, y) Ja 


考虑 (x,y) [BEE +y S R KAR 


Ea +y? 


La 2 dxdy 


+y SR Iq 


F(R) = f 


(8.10) 


通过 极 坐 标 变换 将 (x,y) 转 化 为 (r,9)， 可 以 很 容易 求 得 二 重 积 分 ， 式 
(8.10) 变 为 


R2 


F(R)=1-e 2,R=0. 
(8.11) 
这 里 F(R) 可 以 看 成 是 极 坐 标 中 r 的 囚 积 分 布尔 数 。 由 于 F(R) 的 计算 公式 
比较 简单 ， 逆 函数 也 很 容易 求 得 ， 所 以 可 以 利用 刻 变 换 法 来 对 r 进 行 采 
样 ， 对 于 9 ， 在 [0,2n] 上 进行 均匀 采样 即 可 。 这 样 就 得 到 了 (r,9)， 经 过 
坐标 变换 即 可 得 到 符合 标准 正 态 分 布 的 (x,y)。 具 体 采 样 过 程 如 下 : 
(1) 产生 [0,1] 上 的 两 个 独立 的 均匀 分 布 随 机 数 uj,u,。 


x = 4—2 ln(u, ) cos2nu, 


(2) a men)sn2mo， 则 xy 服从 标准 正 态 分 布 ， 并 且 是 相互 
独立 的 。 


Box-Muller 算 法 由 于 需要 计算 三 角 函 数 ， 相 对 来 说 还 是 比较 耗 
时 ， 而 Marsaglia polar method 则 避 开 了 三 角 函 数 的 计算 ， 因 而 更 快 ， 
其 具体 采样 操作 如 下 : 


(1) EMAIL +y 入 了 上 产生 均匀 分 布 随机 数 对 (xy) 
(在 矩形 {(X,y)-1 全 x,y 会 业 上 利用 拒绝 采样 法 即 可 得 到 ) 。 


—2Ins —2Ins 
(2) Esty, MN Os 是 两 个 服从 标准 正 态 分 布 的 
样本 ， 其 rH Js’ Vs 用 来 代替 Box-Muller 算 法 中 的 cosine 和 sine 操 作 。 


除了 逆 变 换 法， 我 们 还 可 以 利用 拒绝 采样 法 ， 选 择 一 个 比较 好 计 
算 窗 积分 布 逆 函 数 的 参考 分 布 来 履 盖 当前 正 态 分布 (可 以 乘 以 一 个 常 
数 倍 ) ， 进 而 转化 为 对 参考 分 布 的 采样 以 及 对 样本 点 的 拒绝 /接收 操 
作 。 考 虑 到 高 斯 分 布 的 特性 ， 这 里 可 以 用 指数 分 布 来 作为 参考 分 布 。 
指数 分 布 的 索 积 分 布 及 其 授 函 数 部 比 较 容易 求解 。 由 于 指数 分 布 的 样 
本 空间 为 x2>0， 而 标准 正 态 分 布 的 样本 空间 为 (-%,+%)， 因 此 还 需要 利 


用 正 态 分 布 的 对 称 性 来 在 半 坐 标 轴 和 全 坐标 轴 之 间 转 化 。 具 体 来 说 ， 
取 本 1 的 指数 分 布 作为 参考 分 布 ， 其 密度 范 数 为 


9(xz) =e ， 
(8.12) 
HY DY ZA PAST A ER Be ERB oT A 
F(x) =1-e%, 
(8.13) 
F` (u) =—log(1-u). 
(8.14) 


利用 过 变换 法 很 容易 得 到 指数 分 布 的 样本 ， 然 后 再 根据 拒绝 采样 法 来 
决定 是 否 接受 该 样本 ， 接 受 的 概率 为 


_ p) 
BOT Tr a), 


(8.15) 


x2 


p(x) =—e ?(x>0) oh ne 
其 中 V2n 是 标准 正 态 分 布 压缩 到 正 半 轴 后 的 概率 密度 
函数 ， 常 数 因 于 M 需 要 满足 如 下 条 件 : 


P(x) SM + q(x), Vx >0. 


(8.16) 


实际 应 用 时 ，M 需 要 尽 可 能 小 ， 这 样 每 次 的 接受 概率 大 ， 采 样 效 率 更 
高 。 因 此 ， 可 以 取 


M =su pix) 
x20 G(X), 


(8.17) 


计算 后 得 到 接受 概率 
cay 
A(x)=e ?2 . 
(8.18) 
因此 ， 有 具体 的 采样 过 程 如 下 : 


(1) 产生 [0,1] 上 的 均匀 分 布 随机 数 uy， 计 算 x=f (wo) 得 到 指数 
分 布 的 样本 x。 


(2) 再 产生 [0,1] 上 的 均匀 分 布 随机 数 u;， 若 4 < 4(x)， 则 接受 x， 
进入 下 一 步 ; 否则 拒绝 ， 跳 回 到 步骤 1 重新 采样 。 


(3) 最 后 再 产生 [0,1] 上 的 均匀 分 布 随 机 数 ww， 若 wu<0.5， 则 将 x 转 
化 为 -x， 否 则 保持 不 变 ， 由 此 最 终 得 到 标准 正 态 分 布 的 一 个 样本 © 


拒绝 采样 法 的 效率 取决 于 接受 概率 的 大 小 : 参考 分 布 与 目标 分 布 
越 接 近 ， 则 采样 效率 越 高 。 有 没有 更 高 效 的 拒绝 采样 算法 呢 ? ite 
Ziggurat 算 法 ， 该 算法 本 质 也 是 拒绝 采样 ， 但 采用 多 个 阶梯 矩形 来 逼近 
目标 分 布 〈 见 图 8.5) 。Ziggurat 算 法 虽然 看 起 来 稍微 烦 瑛 ， 但 实现 起 
Rn ange etsy te era 
ito 
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图 8.5 ”Ziggurat 算 法 示意 图 
结 与 扩展 . 


高 斯 分 布 的 采样 方法 还 有 很 多 ， 我 们 只 列举 了 几 种 最 常见 的 。 具 
体面 试 时 ， 面 试 者 不 需要 回答 所 有 的 方法 ， 知 道 其 中 一 两 种 即 可 ， 面 
试 官 可 能 会 针对 这 一 两 种 方法 深入 提问 ， 如 理论 证 明 、 优 缺 点 、 人 性 能 
等 。 面 试 时 如 果 没 有 思路 ， 可 以 回忆 那些 通用 的 采样 方法 ， 如 何 将 那 
些 案 上 略 用 到 高 斯 分 布 这 个 具体 案例 上 。 男 外 ， 本 题 还 可 以 适当 扩展 ， 
例如 ， 多 维 高 斯 分 布 随机 向 量 如 何 采样 ? 截 尾 高 斯 分 布 (Truncated 
Gaussian Distribution) 如 何 采样 ? 


正 态 分 布 为 何 又 称 高 斯 分 布 


ESI 27 SBE H SUE 17387 BER 7 (Abraham de Moivre) 著作 的 书籍 «The 
Doctrine of Chances) F: 当 二 项 分 布 的 参数 n 很 大 且 参 数 p 为 2 时 ， 对 应 的 近似 分 布 范 
数 就 是 正 态 分 布 〈 当 时 还 没有 ; 被 命名 为 正 态 分 布 ) MR, MEMA (Pierre-Simon 
marquis de Laplace) 将 二 项 分 布 的 正 态 近 似 这 个 结论 扩展 到 任意 参数 0<p<1， 即 现在 的 
棣 莫 弗 - 拉 普 拉 斯 定理 。 棣 莫 弗 在 二 项 分 布 的 计算 中 浆 见 了 正 态 分 布 的 模样 ， 不 过 他 并 
没有 展现 这 个 分 布 的 美妙 之 处 。 棣 莫 弗 不 是 统计 学 家 ， 未 从 统计 学 角度 考虑 这 个 工作 的 
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场景 描述 


前 面 小 和 中 提 到 ， 在 高 维 空间 中 ， 拒 绝 采 样 和 重要 性 重 采 样 经 常 
难以 寻找 合适 的 参考 分 布 ， 采 样 效 率 低 下 (样本 的 接受 概率 小 或 重要 
性 权重 低 ) ， 此 时 可 以 考虑 马尔 可 夫 蒙特 卡 洛 (Markov Chain Monte 
Carlo, MCMC) 采样 法 。MCMC 采 样 法 是 机 器 学 习 中 非常 重要 的 一 类 
采样 算法 ， 起 源 于 物理 学 领域 ， 到 20 世 纪 80 年 代 后 期 才 在 统计 学 领域 
产生 重要 影响 。 它 可 以 用 于 很 多 比较 复杂 的 分 布 的 采样 ， 并 且 在 高 维 
空间 中 也 能 使 用 。 


知识 点 
蒙特 卡 将 法 ， 杞 尔 可 夫 链 ， 吉 布 斯 采样 ，Metropolis-Hastings 采 样 


问题 1 简 述 MCMC 采 样 法 的 主要 思想 。 


IERE: AN 
分 析 与 解答 


从 名 字 看 ，MCMC 采 样 法 主要 包括 两 个 MC， 即 蒙特 卡 洛 法 
(Monte Carlo) 和 马尔 可 夫 链 (Markov Chain) 。 蒙 特 卡 洛 法 是 指 基 
于 采样 的 数值 型 近似 求解 方法 ， 而 马尔 可 夫 链 则 用 于 进行 采样 。 
MCMC 采 样 法 基本 思想 是 : 针对 竺 采样 的 目标 分 布 ， 构 造 一 个 马尔 可 
夫 链 ， 使 得 该 马尔 可 夫 链 的 平稳 分 布 就 是 目标 分 布 ; 然 后， 从 任何 一 


MUSK A, HS SRY RET RARE, BAREIN KS 
移 序列 会 收敛 到 目标 分 布 ， 由 此 可 以 得 到 目标 分 布 的 一 系列 样本 。 在 
实际 操作 中 ， 核 心 点 是 如 何 构 造 合适 的 马尔 可 夫 链 ， 即 确定 与 尔 可 夫 
链 的 状态 转移 概率 ， 这 涉及 一 些 马 尔 可 夫 链 的 相关 知识 点 ， 如 时 齐 
性 、 细 致 平衡 条 件 、 可 沁 历 性 、 平 稳 分 布 等 ， 感 兴趣 的 读者 可 以 参阅 
相关 资料 ， 这 里 不 再 细 述 。 


问题 2 简单 介绍 几 种 常见 的 MCMC 采 样 法 。 


难度 : tek 


分 析 与 解答 


MCMC 和 采样 法 的 核心 点 是 构造 合适 的 马尔 可 夫 链 ， 不 同 的 马尔 可 
夫 链 对 应 着 不 同 的 MCMC 采 样 法 ， 背 见 的 有 Metropolis-Hastings 采 样 法 
和 吉 布 斯 采样 法 ， 如 图 8.6 所 示 。 


(a) Metropolis-Hastings 采样 法 (b ) 吉 布 斯 采样 法 


图 8.6 ” MCMC 采样 示意 图 


m Metropolis-Hastings 采 样 法 


对 于 目标 分 布 p(x)， 前 先 选 择 一 个 容易 采样 的 参考 条 件 分 布 
q(x 由， 并 令 


A(x,x ) = min | Ae) 
"plage be) | 


(8.19) 


然后 根据 如 下 过 程 进行 采样 ， 
(1) 随机 选 一 个 初始 样本 xo) 。 
(2) Fort=1,2,3,...: 
。 根 据 参考 条 件 分 布 9(X xO? ) 抽 取 一 个 样本 x*; 


。 根 据 均匀 分 布 UC0,1) 产 生 随机 数 u; 
o U< A(x" ,x i. ux = xX, 否则 令 x = xD o 


可 以 证 明 ， 上 述 过 程 得 到 的 样本 序列 人 ,六 ,xzx2，…:} 最 终 会 收敛 到 目标 
分 布 p(x)。 图 8.6 (a) 是 Metropolis-Hastings 算 法 采样 过 程 的 一 个 示意 
图 ， 其 中 红线 表示 被 拒绝 的 移动 〈 维 持 旧 样本 ) ， 绿 线 表示 被 接受 的 
移动 (采纳 新 样本 ) 


昌吉 布 斯 采样 法 
吉 布 斯 采样 法 是 Metropolis-Hastings 算 法 的 一 个 特例 ， 其 核心 思想 
是 每 次 只 对 样本 的 一 个 维度 进行 采样 和 更 新 。 对 于 目标 分 布 p(x)， 其 
PXS (1,%,….,Xa) 是 多 维 向 量 ， 按 如 下 过 程 进行 采样 : 
(1) 随机 选择 初始 状态 x = Ca ,交友 )。 


(2) Fort= 1,2,3,...: 


RTA a 、 (¢-l) _ ep i xo) i 
。 对 于 前 一 步 产 生 的 样本 X “= (2 2, ee 
AEF SE TEBE AE, nye Papo | x3 
x” gees whe i a pl | a seer) in 
D(x, |x, oa 7 x). , ee 


CeCe, me. ge O 
。 形 成 新 的 样本 XxX” = Oy sA jhd o 


UREA DGEBA, EIERE EA ox, xO.. AAEE 
标 分 布 p(x) 。 ne 
不 是 必须 按 下 标 顺序 进行 的 ， 可 以 是 随机 顺序 。 


在 拒绝 采样 中 ， 如 果 在 某 一 步 中 采样 被 拒绝 ， 则 该 步 不 会 产生 新 
样本 ， 需 要 重新 进行 采样 。 与 此 不 同 ，MCMC 和 采样 法 每 一 步 都 会 产生 
一 个 样本 ， 只 是 有 时 候 这 个 样本 与 之 前 的 样本 一 样 而 已 。 男 外 ， 
MCMC 采 样 法 古 在 不 断 达 代 过 程 中 逐渐 收敛 到 平稳 分 布 的 ， 因 此 实际 
应 用 中 一 般 会 对 得 到 的 样本 序列 进行 “burn-in” 处 理 ， 即 截 除 掉 序 列 中 
最 开始 的 一 部 分 样本 ， 只 保留 后 面 的 样本 。 


问题 3 ”MCMC 采样 法 如 何 得 到 相互 独立 的 样本 ? 


TERE: tek tears 
分 析 与 解答 


与 一 般 的 蒙特 卡 洛 算法 不 同 ，MCMC 采 样 法 得 到 的 样本 序列 中 相 
邻 的 样本 不 是 独立 的 ， 因 为 后 一 个 样本 是 由 前 一 个 样本 根据 特定 的 园 
移 概率 得 到 的 ， 或 者 有 一 定 概率 束 是 前 一 个 样本 。 如 有 果 仅 仅 是 采样 ， 
并 不 需要 样本 之 间 相 互 独立 。 如 有 果 确 实 需 要 产生 独立 同 分 布 的 样本 ， 
可 以 同时 运行 多 条 马尔 可 夫 链 ， 这 样 不 同 链 上 的 样本 是 独立 的 ;或 者 
在 同一 条 马尔 可 夫 链 上 每 隔 奉 干 个 样本 才 选 取 一 个 ， 这 样 选取 出 来 的 
样本 也 是 近似 独立 的 。 


AS 结 与 扩展 . 


MCMC 采 样 法 应 用 十 分 广泛 ， 比 如 可 以 思考 如 何 用 MCMC 采 样 法 
来 求 一 个 分 布 的 众 数 ? MCMC 采 样 法 在 最 大 似 然 估计 或 贝 叶 斯 推理 中 
是 如 何 使 用 的 ? 


用 MCMC 采 样 法 破解 密码 


斯 坦 福 大 学 统计 学 教授 Persi Diaconis 是 一 位 传奇 人 物 。 他 在 14 岁 时 就 成 了 一 名 魔 
术 师 。 为 了 看 懂 数 学 家 William Feller 的 概率 论著 作 ， 他 24 岁 就 进入 大 学 读书 。 由 于 
Diaconis 曾 向 《科学 美国 人 》 投 稿 介绍 他 的 洗 牌 方法 ， 使 得 在 《科学 美 国人 》 上 常年 
设 数学 游戏 专栏 的 著名 数学 科普 作家 Martin Gardner 给 他 写 了 推荐 信 去 哈佛 大 学 。 当 时 
哈佛 大 学 的 统计 学 家 Frederick Mosteller 正 在 研究 魔术 ， 于 是 Diaconis 成 了 Mosteller 的 学 
A 〈 对 他 这 段 传 奇 经 历 有 兴趣 的 读者 可 以 看 一 看 统计 学 史话 《女士 品 茶 》) 。 下 面 要 讲 
的 这 个 故事 ， 是 Diaconis 在 他 的 文章 “The Markov Chain Monte Carlo Revolution” 中 给 出 的 
破译 犯人 密码 的 例子 。 


一 天 ， 一 位 研究 犯罪 心理 学 的 医生 来 到 斯 坦 福 大 学 拜访 Diaconis。 他 带 来 了 一 
囚犯 所 写 的 密码 信息 ， 和 希望 Diaconis 能 帮 他 找 出 密码 中 的 信息 。 ee ee 
应 该 对 应 着 某 个 字母 〈 见 图 8.7) ， 但 是 如 何 把 这 些 字 母 准 确 地 找 出 来 呢 ? Diaconis 和 他 
的 学 生 Marc Coram 采 用 了 MCMC 采 样 法 解决 了 这 个 问题 。 
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这 其 实 是 一 个 非常 典型 的 已 撒 密 码 。 手 工 IES } 析 法 ， 演 试 不同 的 组 合并 观察 
意义 也 可 以 解决 这 个 问题 。 但 是 ， 除 了 部 分 高 频 字 母 ， 大 部 分 字母 的 出 现 频 

不 多 的 ， 而 且 与 文本 内 容 有 关 ， 这 样 需要 尝试 非常 多 的 组 合 ， 而 且 需 要 人 为 地 判 
是 否 有 意义 。 因 此 ， 单 纯 地 依靠 字母 频率 分 析 是 不 够 的 ， 应 该 考虑 更 一 般 的 特 
如 字母 之 间 的 共同 出 现 的 频率 。 更 进一步 地 ， 可 以 考虑 字母 之 间 的 转移 概率 ， 例 
当前 一 个 字母 为 辅音 时 ， 后 一 个 字母 出 现 元 音 的 概率 更 大 ; 或者， 连续 几 个 辅音 出 
再 出 现 辅音 的 概率 将 非常 低 。 这 样 就 可 以 请 出 MCMC 方 法 了 ， 以 大 量 英 文 语 料 
基础 ， 统 计 从 字母 x 到 字母 y 的 转移 概率 : 无 论 是 加 密 前 还 是 加 密 后 的 文本 ， 特 定位 置 
之 间 的 转移 概率 是 一 致 的 ， 大 致 趋 近 于 正常 英文 语 料 的 转移 概率 。 
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Diaconis 和 他 的 学 生 Coram 按 照 这 个 思路 对 密 文 进行 解密 。 首 先 ， 用 《战争 与 和 
平 》 作 为 标准 文本 ， 统 计 一 个 字母 到 另 一 个 字母 的 一 步 转移 概率 ; 然后， 根据 
Metropolis-Hastings 算 法 ， 在 假设 所 有 对 应 关系 出 现 的 可 能 性 相等 的 前 提 下 (也 就 是 无 
言 息 先 验 ) ， 随 机 给 出 了 密码 字符 和 字母 的 对 应 关系 ; 再 利用 前 边 得 到 的 转移 概率 ， 计 
算 这 种 对 应 关系 出 现 的 概率 p1; 然后， 随机 抽取 两 个 密码 字符 ， 互 换 它们 的 对 应 字母 ， 
计算 此 时 对 应 关系 的 概率 p2; 最 后 ， 如 果 p2>p1， 接 受 新 的 对 应 关系 ; 否则 ， 抛 一 枚 以 
p2/p1 的 概率 出 现 正面 的 硬币 ， 如 果 出 现 正面 ， 则 接受 新 的 对 应 关系 ， 否 则 依然 保持 旧 
有 的 对 应 关系 。 这 就 是 Metropolis-Hastings 算 法 的 运用 ， 当 算法 收敛 时 ， 就 会 得 到 真实 
的 对 应 关系 。 事 实 上 ， 当 算法 运行 了 2000 多 步 的 上 时候， 就 得 到 了 一 个 混合 了 英语 和 西 班 
牙 语 的 文本 段落 ， 如 图 8.8 所 示 。 


to bat-rb. con todo mi respeto. i was sitting down playing chess with 
danny de emf and boxer de el centro was sitting next to us. boxer was 
making loud and loud voices so i tell him por favor can you kick back 
homie cause im playing chess a minute later the vato starts back up again 
so this time i tell him con respecto homie can you kick back. the vato 
stop for a minute and he starts up again so i tell him check this out shut 
the f**k up cause im tired of your voice and if you got a problem with it 
we can go to celda and handle it. i really felt disrespected thats why i 
told him. anyways after i tell him that the next thing I know that vato 
slashes me and leaves. dy the time i figure im hit i try to get away but 
the c.o. is walking in my direction and he gets me right dy a celda. so i 
go to the hole. when im in the hole my home boys hit doxer so now "b" is 
also in the hole. while im in the hole im getting schoold wrong and 


图 8.8 ”办 犯 密码 的 明文 
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06 贝 叶 斯 网 络 的 采样 


场景 描述 


概率 图 模型 经 常 被 用 来 描述 多 个 随机 变量 的 联合 概率 分 布 。 贝 叶 
斯 网 络 ， 又 称 信念 网 络 或 有 辐 无 环 图 模型 。 它 是 一 种 概率 图 模型 ， 利 
用 有 癌 无 环 图 来 刻画 一 组 随机 变量 之 间 的 条 件 概 率 分 布 天 系 。 图 8.9 是 
贝 叶 斯 网 络 的 一 个 经 典 例子 ， 用 来 刻画 Cloudy ` Sprinkler ` Rain ` 
WetGrass 等 变量 之 间 的 条 件 分 布 关系 。 


T | 0.10 C Sprinter) Ç Rain») T | 0.80 
F | 0.50 F | 0.20 


图 8.9” 贝 叶 斯 网 络 
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概率 图 模型 ， 条 件 概 率 ， 采 样 


问题 ”如何 对 贝 叶 斯 网 络 进行 采样 ?9 如 果 只 需要 考虑 一 部 
分 变量 的 边缘 分 布 ， 如 何 采样 ? 如 果 网 络 中 含有 观测 变 
量 ， 又 该 如 何 采样 ? 


难度 ， 友 交友 六 六 
分 析 与 解答 


对 一 个 没有 观测 变量 的 贝 叶 斯 网 络 进行 采样 ， 最 简单 的 方法 是 祖 
先 采 样 (Ancestral Sampling) ， 它 的 核心 思想 是 根据 有 癌 图 的 顺序 ， 
先 对 祖先 节点 进行 采样 ， 只 有 当 某 个 节点 的 所 有 父 节 点 都 已 完成 采 
样 ， 才 对 该 节点 进行 采样 。 以 场景 描述 中 的 网 8.9 为 例 ， 移 对 Cloudy 变 
量 进行 采样 ， 然 后 再 对 Sprinkler 和 Rain 变 量 进行 采样 ， 最 后 对 WetGrass 
变量 采样 ， 如 图 8.10 所 示 〈 图 中 绿色 表示 变量 取 值 为 True， 红 色 表 示 
取 值 为 False) 。 根 据 贝 叶 斯 网 络 的 全 概率 公式 
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(8.20) 
可 以 看 出 祖先 采样 得 到 的 样本 服从 贝 叶 斯 网 络 的 联合 概率 分 布 。 


图 8.10 祖先 采样 示例 图 


如 采 只 需要 对 贝 叶 斯 网 络 中 一 部 分 随机 变量 的 边缘 分 布 进 行 采 
样 ， 可 以 用 祖先 采样 先 对 全 部 随机 变量 进行 采样 ， 然 后 直接 忽视 那些 


不 需要 的 变量 的 采样 值 即 可 。 由 图 可 见 ， 如 采 需 要 对 边 绿 分 布 P(Rain) 
进行 采样 ， 先 用 祖先 采样 得 到 全 部 变量 的 一 个 样本 ， 如 (Cloudy=T, 
Sprinkler=F, Rain=T, WetGrass=T) ， 然 后 忽略 掉 无 关 变 量 ， 直 接 把 
这 个 样本 看 成 是 Cloudy=T 即 可 。 


接 下 来 考 虚 售 有 观测 变量 的 贝 叶 斯 网 络 的 采样 ， 如 图 8.11 所 示 。 
网 络 中 有 观测 变量 (Sprikler=T，WetGrass=T) (观测 变量 用 斜 线 阴影 
表示 ) ， 又 该 如 何 采样 呢 ? 最 直接 的 方法 是 逻辑 采样 ， 还 是 利用 祖先 
采样 得 到 所 有 变量 的 取 值 。 如 果 这 个 样本 在 观测 变量 上 的 采样 值 与 实 
际 观测 值 相同 ， 则 接受 ， 否 则 拒绝 ， 重 新 采样 。 这 种 方法 的 缺点 是 采 
样 效率 可 能 会 非常 低 ， 随 着 观测 变量 个 数 的 增加 、 每 个 变量 状态 数目 
的 上 升 ， 逻 辑 采 样 法 的 采样 效率 急剧 下 降 ， 实 际 中 基本 不 可 用 。 


Ç Rain) T | 0.80 
F | 0.20 


图 8.11 含有 观测 变量 的 贝 叶 斯 网 络 


因此 ， 在 实际 应 用 中 ， 可 以 参考 重要 性 采样 的 思想 ， 不 再 对 观测 
变量 进行 采样 ， 只 对 非 观测 变量 采样 ， 但 是 最 终 得 到 的 样本 需要 赋 一 
个 重要 性 权 值 : 
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其 中 E 是 观测 变量 集合 。 这 种 采样 方法 称 作 似 然 加 权 采 样 (Likelihood 
Weighted Sampling) ， 产 生 的 样本 权 值 可 以 用 于 后 续 的 积分 操作 。 在 
有 观测 变量 (Sprikler=T, WetGrass=T) 时 ， 可 以 先 对 Cloudy 进 行 采 
样 ， 然 后 对 Rain 进 行 采 样 ， 不 再 对 Sprinkler 和 WetGrass 采 样 《直接 赋 观 
测 值 ) ， 如 图 8.12 所 示 。 这 样 得 到 的 样本 的 重要 性 权 值 为 


w«p(Sprinkler=T|Cloudy=T)-:p(WetGrass=T|Sprinkler=T 
Rain=T)=0.1x0.99=0.099. 
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图 8.12” 似 然 加 权 采 样 示例 图 


除 此 之 外 ， 还 可 以 用 MCMC 和 采样 法 来 进行 采样 。 具 体 来 说 ， 如 采 
采用 Metropolis-Hastings 采 样 法 的 话 ， 如 图 8.13 所 示 ， 只 需要 在 随机 辐 
量 (Cloudy, Rain) 上 选择 一 个 概率 转移 矩阵 ， 然 后 按照 概率 转移 窍 阵 
不 断 进 行 状态 转换 ， 每 次 转移 有 一 定 概率 的 接受 或 拒绝 ， 最 终 得 到 的 
样本 序列 会 收敛 到 目标 分 布 。 最 简单 的 概率 转移 矩阵 可 以 是 :每 次 独 
立地 随机 选择 (Cloudy, Rain) 的 四 种 状态 之 一 。 如 果 采 用 吉 布 斯 采样 
法 的 话 ， 根 据 条 件 概 率 pCloudy|Rain，Sprinkler WetGrass) 和 
p(Rain|Cloudy, Sprinkler, WetGrass)， 每 次 只 对 (Cloudy, Rain) 中 的 一 
个 变量 进行 采样 ， 交 替 进 行 即 可 。 
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图 8.13 ”用 Metropolis-Hastings 采 样 法 对 贝 叶 斯 网 络 进行 采样 


本 节 还 有 一 些 相关 的 扩展 问题 ， 例 如 ， 如 果 是 连续 型 随机 变量 ， 
或 者 是 无 向 图 模型 ( 即 马 尔 可 夫 随 机 场 ，Markov Random Field) ， 上 
述 方法 有 哪些 不 适用 ， 哪 些 仍然 适用 ? 具体 该 如 何 采 样 ? 


07 不 均衡 样本 集 的 重 采样 


场景 描述 


在 训练 二 分 类 模型 时 ， 例 如 医疗 诊断 、 网 络 入 侵 检测 、 信 用 卡 反 
诈 骄 等 ， 经 和 常会 过 到 正人 负 样 本 不 均衡 的 问题 。 对 于 很 多 分 类 算法 ， 如 
条 直接 采用 不 均衡 的 样本 集 来 进行 训练 学 习 ， 会 存在 一 些 问 题 。 例 
如 ， 如 果 正 人 负 样 本 比例 达到 1:99， 则 分 类 器 简单 地 将 所 有 样本 都 判 为 
人 负 样 本 丈 能 达到 99% 的 正确 率 ， 显 然 这 并 不 是 我 们 想 要 的 ， 我 们 想 让 
分 类 絮 在 正 样本 和 人 希 样 本 上 都 有 足够 的 准确 率 和 召回 率 。 


知识 点 
采样 ， 数 据 扩 充 


问题 ”对 于 二 分 类 问题 ， 当 训练 集中 正 负 样 本 非常 不 均衡 
时 ， 如 何 处 理 数 据 以 更 好 地 训练 分 类 模型 ? 


难度 ， 克 交友 六 六 
分 析 与 解答 


为 什么 很 多 分 类 模型 在 训练 数据 不 均衡 时 会 出 现 问题 ? 本 质 原 因 
征 模 型 在 训练 时 优化 的 目标 函数 和 人 们 在 测试 时 使 用 的 评价 标准 不 一 
致 。 这 种 “不 一 致 "可 能 是 由 于 训练 数据 的 样本 分 布 与 测试 时 期 望 的 样 
本 分 布 不 一 致 ， 例 如 ， 在 训练 时 优化 的 是 整个 训练 集 ( 正 负 样本 比例 
可 能 是 1:99) 的 正确 率 ， 而 测试 时 可 能 想 要 模型 在 正 样 本 和 人 负 样 本 上 


的 平均 正确 率 尽 可 能 大 〈 实 际 上 有 是 期 望 正 负 样本 比例 为 11) ; 也 可 能 
是 由 于 训练 阶段 不 同类 别 的 权重 (重要 性 ) 与 测试 阶段 不 一 致 ， 例 如 
训练 时 认为 所 有 样本 的 贡献 是 相等 的 ， 而 测试 时 假 阳 性 样本 (False 
Positive) 和 伪 阴 性 样本 (False Negative) 有 着 不 同 的 代价 。 


根据 上 述 分 析 ， 一 般 可 以 从 两 个 角度 来 处 理 样本 不 均衡 问题 [071 。 
a 基于 数据 的 方法 


对 数据 进行 重 采 样 ， 使 原本 不 均衡 的 样本 变 得 均衡 。 上 首先 ， 记 样 
本 数 大 的 类 别 为 Ch,as， 样 本 数 小 的 类 别 为 Ghin， 它 们 对 应 的 样本 集 分 
BAIS maj Smin i 根据 题 设 ， 有 |Smajl>>|Srmin i 


最 简单 的 处 理 不 均衡 样本 集 的 方法 是 随机 采样 。 采 样 一 般 分 为 过 
采样 (Over-sampling) 和 从 采样 (Under-sampling) ° 随机 过 采样 是 从 
少数 类 样本 集 Sv 中 随机 重复 抽取 样本 (有 放 回 ) 以 得 到 更 多 样本 ; 
随机 欠 采 样 则 相反 ， 从 多 数 类 样本 集 5%%sj 中 随机 选取 较 少 的 样本 (有 
放 回 或 无 放 回 ) 。 


直接 的 随机 采样 虽然 可 以 使 样本 集 变 得 均衡 ， 但 会 市 来 一 些 问 
题 ， 比 如 ， 过 采样 对 少数 类 样本 进行 了 多 次 复制 ， 扩 大 了 数据 规模 ， 
增加 了 模型 训练 的 复 洒 度 ， 同 时 也 容易 造成 过 拟 合 ， 灰 采样 会 丢弃 一 
些 样本 ， 可 能 会 损失 部 分 有 用 信息 ， 造 成 模型 只 学 到 了 整体 模式 的 一 


部 分 。 


为 了 解决 上 述 问 题 ， 通 稼 在 过 采样 时 并 不 是 简单 地 复制 样本 ， 而 
征 采 用 一 些 方法 生成 新 的 样本 。 例 如 ，SMOTE 算 法 对 少数 类 样本 集 
Smin 中 每 个 样本 x， 从 它 在 Si 中 的 K 近 邻 中 随机 选 一 个 样本 y， 然 后 在 
Xx;y 连 线 上 随机 选取 一 点 作为 新 合成 的 样本 (根据 需要 的 过 采样 倍率 重 
EWA TK)  ， 如 图 8.14 所 示 。 这 种 合成 新 样本 的 过 采样 方法 
可 以 降低 过 拟 合 的 风险 。 
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图 8.14 ”SMOTE 算 法 


SMOTE 算 法 为 每 个 少数 类 样本 合成 相同 数量 的 靳 样本 ， 这 可 能 会 
增 大 类 间 重 县 度 ， 并 且 会 生成 一 些 不 能 提供 有 益 信 息 的 样本 。 为 此 出 
现 Borderline-SMOTE、ADASYN 等 改进 算法 。Borderline-SMOTE 只 给 
那些 处 在 分 类 边界 上 的 少数 类 样本 合成 新 样本 ， 而 ADASYN 则 给 不 同 
的 少数 类 样本 合成 不 同 个 数 的 新 样本 。 此 外 ， 还 可 以 采用 一 些 数据 清 
理 方 法 (如 基于 Tomek Links) 来 进一步 降低 合成 样本 带 来 的 类 间 重 
县 ， 以 得 到 更 加 良 定 义 (well-defined) 的 类 复 ， 从 而 更 好 地 训练 分 类 
器 o 


同样 地 ， 对 于 人 欠 采 样 ， 可 以 采用 Informed Undersampling 来 解决 由 
于 随机 欠 采 样 市 来 的 数据 丢失 问题 。 和 常见 的 mformed Undersampling 算 
法 有 : 


(1) Easy Ensemble 算 法 。 每 次 从 多 数 类 Sjj 中 上 随机 抽取 一 个 子 
集 E(|E|s|S%inl))， 然 后 用 E+5S%i, 训 练 一 个 分 类 句 ， 重 复 上 述 过 程 若干 
次 ， 得 到 多 个 分 类 器 ， 最 终 的 分 类 结果 是 这 多 个 分 类 需 结 果 的 融合 。 


(2) Balance Cascade 算 法 。 级 联结 构 ， 在 每 一 级 中 从 多 数 类 Snoi 
中 随机 抽取 子 集 E， 用 E+Siin 训 练 该 级 的 分 类 絮 ， 然 后 将 Sng 中 能 够 被 
当前 分 类 器 正确 判别 的 样本 掏 除 挥 ， 继 续 下 一 级 的 控 作 ， 重 复 若 干 次 
得 到 级 联结 构 ， 最 终 的 输出 结果 也 是 各 级 分 类 器 结果 的 融合 。 


(3) 其 他 诸如 NearMiss (利用 K 近 邻 信息 挑选 具有 代表 性 的 样 
本 ) 、One-sided Selection (采用 数据 清理 技术 ) 等 算法 。 


在 实际 应 用 中 ， 具 体 的 采样 操作 可 能 并 不 总 是 如 上 述 几 个 算法 一 
样 ， 但 基本 思路 很 多 时 候 还 是 一 致 的 。 例 如 ， 基 于 到 类 的 采样 方法 ， 
利用 数据 的 类 艇 信息 来 指导 过 采样 / 炙 采 样 操 作 ， 经 第 用 到 的 数据 扩充 
方法 也 是 一 种 过 采样 ， 对 少数 类 样本 进行 一 些 噪声 扰动 或 变换 (如 图 
像 数 据 集中 对 图 片 进 行 裁剪 、 翻 转 、 旋 转 、 加 光照 等 以 构造 出 新 的 
样本 ;而 Hard Negative Mining 则 是 一 种 欠 采 样 ， 把 比较 难 的 样本 抽出 
RAI F IRCA Ra ° 


n 基于 算法 的 方法 


在 样本 不 均衡 时 ， 也 可 以 通过 改变 模型 训练 时 的 目标 函数 (如 代 
价 敏感 学 习 中 不 同类 别 有 不 同 的 权重 ) 来 矫正 这 种 不 平衡 性 ; 当 样 本 
数目 极其 不 均衡 时 ， 也 可 以 将 问题 转化 为 单 类 学 习 (one-class 
learning) 、 异 常 检测 (anomaly detection) 。 本 节 主 要 关注 采样 ， 不 
H o 

:总 结 与 扩展 

在 实际 面试 时 ， 这 道 题 还 有 很 多 可 扩展 的 知识 点 。 例 如 ， 模 型 在 
不 均衡 样本 集 上 的 评价 标准 ; 不 同样 本 量 〈 绝 对 数值 ) 下 如 何 选择 合 


适 的 处 理 方法 (考虑 正 负 样本 比例 为 1:100 和 1000:100000 的 区 别 ) ; 代 
价 敏感 学 习 和 采样 方法 的 区 别 、 联 系 以 及 效果 对 比 等 。 


第 9 章 ”前 向 神经 网 络 


深度 前 馈 网 络 (Deep Feedforward Networks) 是 一 种 典型 的 深度 
学 习 模 型 。 其 目标 为 拟 合 某 个 函数 六 BME CER =f (x;9) 将 输入 x 转化 
为 某 种 预测 的 输出 y， 并 同时 学 习 网 络 参数 9 的 值 ， 使 模型 得 到 最 优 的 
琅 数 近似 。 由 于 从 输入 到 输出 的 过 程 中 不 存在 与 模型 自身 的 反馈 连 
接 ， 此 类 模型 被 称 为 “前 馈 ”。 


深度 前 馈 网 络 通常 由 多 个 函数 复合 在 一 起 来 表示 ， 该 模型 与 一 个 
有 问 无 环 图 相关 联 ， 其 中 图 则 描述 了 函数 的 复合 方式 ， 例 如 “ 链 式 结 
FR” f (x)=f S(O(fFDX)))。 链 的 全 长 定义 为 网 络 模 型 的 “深度 ”。 假 设 
真实 的 函数 为 f(x)， 在 神经 网 络 的 过 程 中 ， 我 们 试图 令 f (x) 拟 合 f (x) 的 
值 ， 而 训练 数据 则 提供 在 不 同 训练 点 上 取 值 的 f(x) 的 近似 实例 (可 能 
包含 噪声 ) ， 即 每 个 样本 x 伴随 一 个 标签 yxf (x)， 指 明 输 出 层 必须 产生 
接近 标签 的 值 ， 而 网 络 学 习 算 法 则 需要 决定 如 何 使 用 中 间 的 “隐藏 
层 ” 来 最 优 的 实现 f* 的 近似 。 


深度 前 馈 网 络 是 一 类 网 络 模型 的 统称 ， 我 们 常见 的 多 层 感知 机 、 
目 编码 右 、 限 制 玻 尔 兹 曼 机 ， 以 及 卷 积 神经 网 络 等 ， 都 是 其 中 的 成 
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sil 


01 多 层 感 知 机 与 布尔 画 数 


场景 描述 


神经 网 络 概念 的 诞生 很 大 程度 上 受到 了 神经 科学 的 局 发 。 生 物 学 
研究 表明 ， 大 脑 皮 层 的 感知 与 计算 功能 是 分 层 实现 的 ， 例 如 视觉 图 
像 ， 首 先 光 信号 进入 大 脑 皮 层 的 V1 区 ， 即 初级 视 皮 层 ， 之 后 依次 通过 
V2 层 和 V4 层 ， 即 纹 外 皮层 ， 进 入 下 普 叶 参与 物体 识别 。 深 度 神经 网 
络 ， 除 了 模拟 人 脑 功能 的 多 层 结构 ， 最 大 的 优势 在 于 能 够 以 紧 普 、 们 
洁 的 方式 来 表达 比 浅 层 网 络 更 复杂 的 函数 集合 (这 里 的 “简洁 ”可 定义 
为 隐 层 单元 的 数目 与 输入 单元 的 数目 呈 多 项 式 关 系 ) 。 我 们 的 问题 将 
从 一 个 简单 的 例子 引出 ， 已 知 神经 网 络 中 每 个 节点 都 可 以 进行 “逻辑 
与 /或 / 非 * 的 运算 ， 如 何 构 造 一 个 多 层 感 知 机 (Multi-Layer Perceptron, 
MLP) 网 络 实现 n 个 输入 比特 的 奇偶 校 验 码 〈 任 意 布尔 函数 ) ? 


ALARA 
数理 逻辑 ， 深 度 学 习 ， 神 经 网 络 


问题 1 多 层 感知 机 表示 异 或 逻辑 时 最 少 需 要 几 个 隐 含 层 
( 仅 考 虑 二 元 输入 ) ? 


MEE: kN 


分 析 与 解答 


首先 ， 我 们 先 来 分 析 一 下 具有 和 堆 个 隐藏 层 的 情况 (等 同 于 逻辑 回 
VA) 能 否 表示 异 或 运算 。 仅 考虑 二 元 输入 的 情况 ， 设 X 取 值 为 0 或 1，Y 
的 取 值 也 为 0 或 1，2Z 为 异 或 运算 的 输出 。 也 束 古 ， 当 X 和 Y 相 同时 ， 异 
或 输出 为 0， 否 则 为 1， 具 体 的 真 值 表 如 表 9.1 所 示 。 


9.1 异 或 运算 的 真 值 表 


回顾 逻辑 回归 的 公式 
Z=sigmoid(AX+BY+C) , 
(9.1) 


其 中 Sigmoid 激 活 函 数 是 单调 递增 的 : 当 AX+BY+C 的 取 值 增 大 时 ，2Z 的 
取 值 也 增 大 ;， 当 AX+BY+C 的 取 值 减少 时 ，2Z 的 取 值 也 减 小 。 而 
AX+BY+C 对 于 X 和 和 Y 的 变化 也 是 单调 的 ， 当 参数 A 为 正 数 时 ，AX+BY+C 
以 及 Z 的 取 值 随 X 单 调 递 增 当 A 取 人 负数 时 ，AX+BY+C 和 2Z 随 X 单 调 弟 
诚 ， 当 参数 A 为 0 时 ，2Z 的 值 与 X 无 关 。 观 察 异 或 运算 的 真 值 表 ， 当 关 0 
时 ， 将 X 的 取 值 从 0 变 到 1 将 使 输出 Z 也 从 0 变 为 1， 说 明 此 时 Z 的 变化 与 X 
是 正 相 关 的 ， 需 要 设置 A 为 正 数 ， 而 当 Y=1 时 ， 将 X 的 取 值 从 0 变 为 1 将 
导致 输出 Z 从 1 变 为 0， 此 时 Z 与 X 是 负 相关 的 ， 需 要 设置 A 为 负数 ， 与 前 
面 矛 盾 。 因 此 ， 采 用 逻辑 回归 〈 即 不 带 隐 藏 层 的 感知 机 ) 无 法 精确 学 
习 出 一 个 输出 为 异 或 的 模型 表示 。 


然后 ， 我 们 再 考虑 具有 一 个 隐藏 层 的 情况 。 事 实 上 ， 通 用 近似 定 
理 告诉 我 们 ， 一 个 前 馈 促 经 网 络 如 果 有 具有 线性 输出 层 和 至 少 一 层 具 有 
任何 一 种 “ 挤 压 ”性 质 的 激活 函数 的 隐藏 层 ， 当 给 予 网 络 足够 数量 的 隐 
藏 单元 时 ， 可 以 以 任意 精度 近似 任何 从 一 个 有 限 维 空间 到 男 一 个 有 限 
维 空间 的 波 莱 尔 可 测 函 数 。 对 通用 近似 定理 的 证 明 并 不 在 面试 的 要 求 
范围 ， 不 过 可 以 简单 认为 我 们 利用 的 激活 函数 和 目标 函数 是 通用 近似 
定理 适用 的 一 个 子 集 ， 因 此 多 层 感知 机 的 表达 能 力 是 非常 强 的， 关键 
在 于 我 们 是 否 能 够 学 习 到 对 应 此 表达 的 模型 参数 。 


在 这 里 ， 我 们 还 并 不 涉及 模型 参数 的 学 习 ， 而 是 通过 精心 设计 一 
个 模型 参数 以 说 明 包含 一 个 隐 含 层 的 多 层 感知 机 就 可 以 确切 地 计算 异 
或 函数 ， 如 图 9.1 所 示 。 图 中 有 2 和 2Z., 两 个 隐藏 单元 。 在 隐藏 单元 Z， 
中 ，X 和 Y 的 输入 权重 均 为 1， 且 偏 置 为 1， 等 同 于 计算 HI=X+Y-1， 青 
应 用 ReLU 激 活 函 数 max(0, 万 )， 其 真 值 表 如 表 9.2 所 示 。 同 理 ， 隐 藏 单 
元 Z. 的 输入 权重 均 为 -1， 偏 置 为 -1， 真 值 表 如 表 9.3 所 示 。 可 以 看 到 
第 一 个 隐藏 单元 在 X 和 Y 均 为 1 时 激活 ， 第 二 个 隐藏 单元 在 X 和 Y 均 为 0 时 
激活 ， 最 后 再 将 两 个 隐藏 单元 的 输出 做 一 个 线性 变换 即 可 实现 异 或 操 
作 ， 如 表 9.4 所 示 。 


图 9.1 ”可 以 进行 异 或 运算 的 多 层 感知 机 
9.2 ” 隐 层 神经 元 Z] 的 真 值 表 


Hy = X+Y-1|| Z1 = max(0, H) 
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问题 2 如果 只 使 用 一 个 隐 层 ， 需 要 多 少 隐 他 点 能 够 实现 
包含 on 元 输入 的 任意 布尔 函数 ? 


MEE: tok yk 


分 析 与 解答 


包含 n 元 输入 的 任意 布尔 函数 可 以 唯一 表示 为 机 取 范 式 
(Disjunctive Normal Form, DNF) (由 有 限 个 简单 合 取 式 构成 的 析 取 
式 ) 的 形式 。 先 看 一 个 n=5 的 简单 示例 


Y 


= + X,X,X,X,X, + X,X,X,X,X, 十 
X,X,X,X,X; + XX X,X,X; +X X,X,X, Xs. 


(9.2) 


在 式 (9.2) 中 ， 最 终 的 输出 Y 可 以 表示 成 由 6 个 合 取 范式 所 组 成 的 析 取 
范式 。 该 贸 数 可 由 包含 6 个 隐 节 点 的 3 层 感 知 机 实现 ， 如 图 9.2 所 示 。 


图 9.2 用 多 层 感知 机 实现 由 6 个 合 取 范式 组 成 的 析 取 范式 

首先 证 明 单个 隐 结 点 可 以 表示 任意 合 取 范 式 。 考 虑 任意 布尔 变量 
假设 向， 者 它 在 合 取 范 式 中 出 现 的 形式 为 正 X) ， 则 设 权重 为 1; 者 
出 现 的 形式 为 非 (X;) ， 则 设 权重 为 -1; ARA EA RIEP H o 


设 权重 为 0， 并 且 偏 置 设 为 合 区 范式 中 变量 的 尽数 取 人 负 之 后 再 加 1。 可 
以 看 出 ， 当 采用 ReLU 油 活 函 数 之 后 ， 当 且 仅 当 所 有 出 现 的 布尔 变量 均 
满足 条 件 时 ， 该 隐藏 单元 才 会 被 激活 〈 输 出 1) ， 否 则 输出 0， 这 与 合 
取 范 式 的 定义 的 相符 的 。 然 后 ， 令 所 有 隐藏 单元 到 输出 层 的 参数 为 1， 
并 设 输出 单元 的 俩 置 为 0。 这 样 ， 当 且 仅 当 所 有 的 隐藏 单元 都 未 被 激活 
时 ， 才 会 输出 0， 人 否则 都 将 输出 一 个 正 数 ， 起 到 了 析 取 的 作用 。 


我 们 可 以 使 用 卡 诺 图 表示 析 取 式 ， 即 用 网 格 表示 真 值 表 ， 当 输入 
的 合 取 式 值 为 1 时 ， 则 填充 相应 的 网 格 。 卡 诸 图 中 相 邻 的 填 色 区 域 可 以 
进行 规约 ， 以 达到 化 们 布尔 函数 的 目的 ， 如 图 9.3 所 示 ， 由 图 可 见 ， 有 
W、X、Y、2Z 共 4 个 布尔 变量 ，WX 的 取 值 组 合 在 纵 轴 显示 ，YZ 的 取 值 
组 合 在 横 轴 显示 。7 个 填 色 网 格 最 终 可 规约 为 3 个 合 取 式 ， 故 该 函数 可 
由 包含 3 个 隐 和 市 点 的 3 层 感 知 机 实现 : 


图 9.3 ”用 卡 洛 图 表示 析 取 范式 


回顾 初始 问题 : 在 最 才情 况 下 ， 需 要 多 少 个 隐藏 结 点 来 表示 包 合 m 
元 输入 的 布尔 画 数 呢 ? 现在 问题 可 以 转化 为 : 寻找 “最 大 不 可 规约 的 ”n 
元 析 取 范式 ， 也 等 价 于 最 大 不 可 规约 的 卡 诡 图 。 直 观 上 ， 我 们 只 需 间 
隅 填充 网 格 即 可 实现 ， 其 表示 的 布尔 函数 恰 为 n 元 输入 的 异 或 操作 ， 如 
图 9.4 所 示 。 容易 看 出 ， 在 间隔 填充 的 网 格 上 反 转 任意 网 格 的 取 值 都 会 
引起 一 次 规约 ， 因 此 ，mn 元 布尔 函数 的 析 取 范式 最 多 包含 20 7 个 不 可 
规约 的 合 取 范 式 ， 对 于 单 隐 层 的 感知 机 ， 需 要 2m 了 0 个 隐 市 点 实现 。 


WX 00 Ol 11 10 


1 
01 
00 YZ 
yy 01 11 10 


O=WOX@OYOZ O=U®VOWOX OYOZ 


图 9.4 ”多 元 异 或 运算 


问题 3 考虑 多 隐 层 的 情况 ， 实 现 包 含 n 元 输入 的 任意 布尔 
画 数 最 少 需要 多 少 个 网 络 节 点 和 网 络 层 ? 


TREE: etek vic 
分 析 与 解答 


参考 问题 1 的 解答 ， 考 虑 二 元 输入 的 情况 ， 需 要 3 个 结 点 可 以 完成 
一 次 异 或 操作 ， 其 中 隐藏 层 由 两 个 节点 构成 ， 输 出 层 需要 一 个 结 点 ， 
用 来 输出 异 或 的 结果 并 作为 下 一 个 结 点 的 输入 。 对 于 四 元 输入 ， 包 含 
三 次 异 或 操作 ， 需 要 3x3=9 个 市 点 即 可 完成 。 图 9.5 展 示 了 一 种 可 能 的 
网 络 结构 。 输 入 W、X、Y、Z 4 个 布尔 变量 ; 首先 用 3 个 结 点 计算 
wex; 然后 再 加 入 3 个 节点 ， 将 We@X 的 输出 与 Y 进 行 异 或 ， 得 到 
W@X@Y; 最 后 与 2 进行 异 或 ， 整 个 网 络 总 共 需 要 9 个 结 点 。 而 六 元 输 
入 包含 五 次 异 或 操作 ， 因 此 需要 3x5=15 个 节点 ， 网 络 的 构造 方式 可 参 
考 图 9.6 所 示 。 依 此 类 推 ，n 元 异 或 函数 需要 包括 3(n-1T 个 节点 (包括 最 
终 输出 节点 ) 。 可 以 发 现 ， 多 隐 层 结构 可 以 将 隐 节 点 的 数目 从 指数 级 
O(2D 了 直接 减少 至 线性 级 O(3(n-1))! 


O=WOXOY@Z 
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图 9.5 ”实现 四 元 异 或 运算 的 一 种 网 络 结构 样 例 


在 上 面 所 举 的 例子 中 ，n 元 异 或 所 需 的 30-D 个 结 点 可 以 对 应 
20-T 个 网 络 层 (包括 隐 含 层 和 输出 层 ) ， 实 际 上 ， 层 数 可 以 进一步 
减 小 。 考 虑 到 四 元 的 输入 W、X、Y、Z; 如 果 我 们 在 同一 层 中 计算 
We@X 和 Y@Z， 再 将 二 者 的 输出 进行 异 或 ， 就 可 以 将 层 数 从 6 降 到 4。 根 
据 二 分 思想 ， 每 层 点 两 两 分 组 进行 异 或 运算 ， 需 要 的 最 少 网 络 层 数 
Hog N (向 上 取 整 ) 。 
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R96 ”实现 六 元 异 或 运算 的 一 种 网 络 结构 样 例 
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场景 描述 


线性 模型 是 机 器 学 习 领 域 中 最 基本 也 是 最 重要 的 工具 ， 以 逻辑 回 
归 和 线性 回归 为 例 ， 无 论 通 过 闭 解 形式 还 是 使 用 凸 优化 ， 它 们 都 能 高 
效 且 可 靠 地 拟 合 数据 。 然 而 真实 情况 中 ， 我 们 往往 会 遇 到 线性 不 可 分 
问题 (如 XOR 异 或 函数 ) ， 需 要 非 线 性 变换 对 数据 的 分 布 进行 重新 映 
射 。 对 于 深度 神经 网 络 ， 我 们 在 每 一 层 线 性 变换 后 琶 加 一 个 非 线 性 激 
De 
习 与 拟 合 能 力 。 


知识 点 
微 积分 ， 深 度 学 习 ， 激 活 函 数 


问题 1 写 出 常用 激活 函数 及 其 导数 。 


HERE: teased yk 
分 析 与 解答 
Sigmoid 激 活 画 数 的 形式 为 


f(2)= 1+exp( 一 2) ， 


(9.3) 


ITAGE KRA 
f'(@=f@A-f@). 
(9.4) 
Tanh 激 活 函 数 的 形式 为 
f(z)= tanh(z) = SE 
(9.5) 
对 应 的 导 画 数 为 
f'(2)=1-(F (2). 
(9.6) 
ReLU 激 活 函 数 的 形式 为 
f(z) = max(0, z), 
(9.7) 
对 应 的 导 画 数 为 
Ps 
(9.8) 


问题 2 ”为 什么 Sigmoid 和 Tanh 激 活 函 数 会 导致 梯度 消失 的 
现象 ? 


难度 : teresa 


分 析 与 解答 


Sigmoid 激 活 画 数 的 曲线 如 图 9.7 所 示 。 它 将 输入 z 上 映射 到 区 间 (0, 
1) ， 当 z 很 大 时 ，f(z) 趋 近 于 1;， 当 z 很 小 时 ，flz) 趋 近 于 0。 其 导数 
f'(2)= f(z)4-f(z)) 在 z 很 大 或 很 小 时 都 会 趋 近 于 0， 造 成 梯度 消失 的 现 
Fo 


Tanh 激 活 函 数 的 曲线 如 图 9.8 所 示 。 当 z 很 大 时 ，flz) 趋 近 于 1; Sz 
很 小 时 ，flz) 趋 近 于 -1。 其 导数 1(z)=1--(f(z)) 在 z 很 大 或 很 小 时 都 会 
趋 近 于 0， 同 样 会 出 现 “ 梯 度 消失 ”。 实 际 上 ，Tanh 激 活 画 数 相当 于 
Sigmoid 的 平移 : 


tanh(x)=2sigmoid(2x)-1 . 


图 9.7 ”Sigmoid 激 活 函 数 


图 9.8 Tanh 激 活 函 数 


问题 3 ReLU 系 列 的 激活 函数 相对 于 Sigmoid 和 Tanh 激 活 
函数 的 优点 是 什么 ? 它们 有 什么 局 限 性 以 及 如 何 改 进 ? 


难度 ， 冯 友 友 次 六 
分 析 与 解答 


a 优点 


(1) 从 计算 的 角度 上 ，Sigmoid 和 Tanh 激 活 范 数 均 需 要 计算 指 
数 ， 复 杂 度 高 ， 而 ReLU 只 需要 一 个 国 值 即 可 得 到 激活 值 。 


(2) ReLU 的 非 饱 和 性 可 以 有 效 地 解决 梯度 消失 的 问题 ， 提 供 相 
对 宽 的 激活 边界 。 


(3) ReLU 的 单 侧 抑制 提供 了 网 络 的 稀疏 表达 能 力 。 
m 局 限 性 


ReLU 的 局 限 性 在 于 其 训练 过 程 中 会 导致 神经 元 死亡 的 问题 。 这 是 
FHF Ene (2) = max(0, 23) 导致 负 梯度 在 经 过 该 ReLU 单 元 时 被 置 为 0， 
且 在 之 后 也 不 被 任何 数据 激活 ， 即 流 经 该 神经 元 的 梯度 永远 为 0， 不 对 
任何 数据 产生 响应 。 在 实际 训练 中 ， 如 果 学 习 率 (Learning Rate) 设 
置 较 大 ， 会 导致 超过 一 定 比例 的 神经 元 不 可 逆 死 亡 ， 进 而 参数 梯度 无 
法 更 新 ， 整 个 训练 过 程 失 败 。 


为 解决 这 一 问题 ， 人们 设计 了 ReLU 的 变种 Leaky ReLU 
(LReLU) ， 其 形式 表示 为 


z, z>0; 


ro-l 


az, zS0. 
(9.10) 


ReLU 和 LReLU 的 函数 曲线 对 比如 图 9.9 所 示 。LReLU 与 ReLU 的 区 
别 在 于 ， 当 z<0 时 其 值 不 为 0， 而 是 一 个 斜率 为 a 的 线性 函数 ， 一 般 a 为 
一 个 很 小 的 正常 数 ， 这 样 既 实现 了 单 侧 抑 制 ， 又 保留 了 部 分 负 梯 度 信 
息 以 致 不 完全 丢失 。 但 另 一 方面 ，a 值 的 选择 增加 了 问题 难度 ， 需 要 较 
强 的 人 工 先 验 或 多 次 重复 训练 以 确定 合适 的 参数 值 。 


f (9) 


f(y 


(a) ReLU (b) LReLU 


图 9.9” 范 数 曲线 


基于 此 ， 参 数 化 的 PReLU (Parametric ReLU) 应 运 而 生 。 它 与 
LReLU 的 主要 区 别 是 将 负 轴 部 分 和 斜率 a 作 为 网 络 中 一 个 可 学 习 的 参 
数 ， 进 行 反 回 传 播 训 练 ， 与 其 他 含 参数 网 络 层 联合 优化 。 而 另 一 个 
LReLU 的 变种 增加 了 “随机 化 ?机 制 ， 具 体 地 ， 在 训练 过 程 中 ， 和 斜率 a 作 


为 一 个 满足 某 种 分 布 的 随机 采样 ;测试 时 再 固定 下 来 。Random ReLU 
(RReLU) 在 一 定 程度 上 能 起 到 正则 化 的 作用 。 关 于 ReLU 系 列 激 活 
函数 ， 更 多 详细 内 容 及 实验 性 能 对 比 可 以 参考 相关 论文 48 o 


03 ”多 层 感 知 机 的 反 向 传播 算法 


场景 描述 


多 层 感 知 机 中 ， 输 入 信号 通过 各 个 网 络 层 的 隐 节 点 产生 输出 的 过 
程 称 为 前 向 传播 。 图 9.10 定 义 了 一 个 典型 的 多 层 感知 机 。 为 便于 表 
示 ， 定 义 第 () 层 的 输入 为 xX0， 输 出 为 am， 在 每 一 层 中 ， 首 先 利用 输入 
x0 和 偏 置 DO 计算 仿 射 变换 z0=WWx0O+b0O;， SR BOR AEH Fz, 
得 到 a”= Lra) SEO), ORREK FEA, BIOD o ex 
Hm, ZOMO nE E, WO Amn o BATS 
别 用 2 ， 4 和 WO 表示 其 中 的 一 个 元 素 - 


输入 层 BER 输出 层 


图 9.10 ”多 层 感 知 机 结构 图 


在 网 络 训 练 中 ， 前 向 传播 最 终 产 生 一 个 标量 损失 函数 ， 反 癌 传 播 
算法 (Back Propagation) 则 将 损失 函数 的 信息 沿 网 络 层 向 后 传播 用 以 
计算 梯度 ， 达 到 优化 网 络 参数 的 目的 。 反 辣 传播 是 神经 网 络 中 非常 重 
要 的 算法 ， 从 业者 需要 对 反问 传播 算法 熟悉 掌握 并 灵活 应 用 ， 因 此 相 
天 问题 在 面试 中 也 常 有 涉及 。 


线性 代数 ， 微 积分 ， 深 度 学 习 


问题 1 He RAL To RSAC TR RL © 


难度 : KAKAR 
分 析 与 解答 
给 定 包 含 m 样 本 的 集合 (co ,79) yA, ERARA 
_jis 0 or |, ASSES poy 
IWD- LS 30 ts ,yy 小 LLM; ) 
= DE Co AS SS moy 
mi 2 j 和 征订 j=l 7 5 


(9.11) 


其 中 第 一 项 为 平方 座 差 项 ， 第 二 项 为 L2 正 则 化 项 ， 在 功能 上 可 称 作 权 
重 桶 减 项 ， 目 的 是 减 小 权重 的 幅度 ， 防 止 过 拟 合 。 该 项 之 前 的 系数 人 为 
权重 惨 减 参数 ， 用 于 控制 损失 函数 中 两 项 的 相对 权重 。 


以 二 分 类 场景 为 例 ， 交 义 烂 损失 函数 定义 为 


1 lu i : A N-1 s w+l 
J(W,b) = -| 2S ror ti! ) ys | += PVP y 
iil 2 fa ia jal 
1 m D w 四 W a N-1 5; s+ oo 
De a |e DD OM 
= 1=1 i=l j=l ; 


(9.12) 


其 中 正则 项 与 上 式 是 相同 的 ， 第 一 项 衡量 了 预测 o( 与 真实 类 别 y" 之 间 
IAC, SyF, MRA, CMEA KROA Be) © FE 
多 分 类 的 场景 中 ， 可 以 类 似 地 写 出 相应 的 损失 函数 


m Z -1 Sy Si+l 
ID=- SS" mo [FEST OMY 
M iZi k=l 2 | 
(9.13) 


其 中 oi 代表 第 i 个 样本 的 预测 属于 类 别 k 的 概率 ，yi 中 为 实际 的 概率 
(如 果 第 i 企 样本 的 真实 类 别 为 K， 则 2=1， 否 则 为 0) ° 


问题 根据 问题 1 中 定义 的 损失 画 数 ， 推 导 各 层 参数 更 新 
的 梯度 计算 公式 。 


TEE: tok kay 
分 析 与 解答 


回顾 之 前 给 出 的 定义 ， 第 ()) 层 的 参数 为 WO 和 b0;， 每 一 层 的 线性 
变换 为 z0 =WOr +50， 输 出 为 & = f(z 中)， 其 中 /为 非 线性 激活 
a (如 Sigmoid 、Tanh、ReLU 等 ) ; al 直接 作为 下 一 层 的 输入 ， 即 
on mg 


我 们 可 以 利用 批量 梯度 下 降 法 来 优化 网 络 参数 。 梯 度 下 降 法 中 每 
次 迭代 对 参数 W (网 络 连接 权重 ) 和 b ( 偏 置 ， 进 行 更 新 


0 


WO =W -a 
yJ y (1) 
aM; 


J(W,b) 


(9.14) 


bP =b -a =a JW, ay 
(9.15) 
其 中 a 为 学 习 速 率 ， 控 制 每 次 迭代 中 梯度 变化 的 幅度 。 
? jw JW ,b) 
[ia] BOLE O A R fig OM” Da 。 为 得 到 递 推 公 式 ， 我 
们 还 需要 计算 损失 函数 对 隐 舍 层 的 偏 导 
| a b) az 
(9.16) 
其 中 sj,j 为 第 1+1 层 的 节点 数 ， 而 
ba K oi +b") 
az) az” 
(9.17) 


D) 一 qP 


其 中 b0+D 与 7O 无 关 可 以 省 去 ，X = f(z”), REE (9.17) 
WH 


Oz ,i 


=. =n a) 
a 


(9.18) 


O 

J(W ,b aren g (4 
a0 可 以 看 作 损失 画 数 在 第 ) 层 第 ;个 节点 产生 的 残 差 量 ， 记 为 
5@， 从 而 递 推 公式 可 以 表示 为 


gO (Fpp rem y 


j=l 


(9.19) 
损失 对 参数 函数 的 梯度 可 以 写 为 
6 OW,b) OF ay ae 
TI ag Oh 
J y 
(9.20) 
(/+1) 
= 5 ayn IM b)=6; | 
(9.21) 


PETS NAS Ta A ET EE a AIREY), 得 到 6 之 

Ja, AAR Oe Y),..., 6 可 以 根据 上 面 得 到 的 递 推 公式 计算 。 为 
了 人 简化 起 见 ， 这 里 暂时 名 略 Batch 样 本 集合 和 正则 化 项 的 影响 ， 重 点 头 

注 这 两 种 损失 函数 产生 的 梯度 。 


。 平方 误差 损失 : 


WD = -eo =3 -7 


(9.22) 
e PE), 


(9.23) 


。 ACME: 


JW ,b)=-> yn a, =-F y, n fe) 
k=1 k=1 。 


(9.24) 


在 分 类 问题 中 ，y, 仅 在 一 个 类 别 k 时 取 值 为 1L， 其 余 为 0。 设 实际 的 
Rak, M 


J(W,b) = -nap 


(9.25) 
5 E fe” 
fe). 
(9.26) 
fFXSoftMaxi#ts KAY, OSOL, Ae 
6) = fz ”)-1 Ee ae -1 
(9.27) 


问题 3 PARAM BRAM NMR BD Ae BT 
么 场景 ? 


TERE: tke ater 
分 析 与 解答 


一 般 来 说 ， 平 方 损失 函数 更 适合 输出 为 连续 ， 并 且 最 后 一 层 不 合 
Sigmoid 或 Softmax 油 活 函 数 的 神经 网 络 ;， 3S MTA MM BE PR 


或 多 分 类 的 场景 。 想 正确 回答 出 答案 也 许 并 不 难 ， 但 是 要 想 给 出 具有 
理论 依据 的 合理 原因 ， 还 需要 对 之 上 一 问 的 梯度 推导 熟悉 掌握 ， 并 且 
具备 一 定 的 灵活 分 析 能 力 。 

为 何平 方 损失 函数 不 适合 最 后 一 层 含 有 Sigmoid 或 Softmax 激 活 男 
数 的 神经 网 络 呢 ? 可 以 回顾 上 一 问 推导 出 的 平方 误 郑 损失 函数 相对 于 
输出 层 的 导数 


6% =-(y-a) f(z), 
(9.28) 


Ra UU (2° Dia GAG oS ERY Sigmoid EH Ak 
AY, MORON AA, BARES FA, B EO AER 
(EAP Ri), SAOUPRE HD, foe Tp REA AA >) REE AT 
慢 ee ， 相 对 于 输出 层 的 导数 (也 可 以 被 认为 
EIRA) 大 


69 =a, -1 


(9.29) 


此 时 的 导数 是 线性 的 ， 因 此 不 会 存在 学 习 速 度 过 慢 的 问题 。 
A 


神经 网 络 的 大 起 大 落 


回顾 历史 ， 今 天 遍地 开花 的 神经 网 络 ， 并 不 是 最 近 才 冒 出 来 的 新 鲜 玩 意 ， 而 是 名 
了 老 古 董 。 深 度 学 习 所 依附 的 神经 网 络 技术 起 源 于 20 世 纪 50 年 代 ， 那 时 候 还 叫 感 
知 机 。 在 人 工 神经 网 络 领 域 中 ， 感 知 机 也 被 认为 是 单 层 的 人 工 神经 网 络 ， 尽 管 结构 简 
单 ， 却 能 够 学 习 并 解决 相当 复杂 的 问题 。 图 9.11 是 神经 网 络 的 发 展 历 史 。 


1958 年 


1969 年 


1986 年 


越 的 问题 。 


神经 网 络 第 一 


因为 它 
问题 都 无 能 为 力 


H, 
人 有 办 法 将 


我 们 需要 月 


20 MEAE 0 年 代 中 期 
图 9.11 神经 网 络 的 发 展 历史 
虽然 最 初 被 认为 有 着 良好 的 发 展 潜能 


只 能 学 习 线 性 可 分 


， 但 


简 
展 多 层 


in 


本 找 不 到 运 月 


JE o 


感知 机 ， 
在 多 层 神 经 网 络 上 上 


2006 年 ”2012 年 


感知 机 最 终 被 证 明 存在 着 严重 的 不 可 
简单 的 异 或 〈XOR 有 映射 ) 等 线性 
。1969 年 ，Marvin Minsky 出 版 的 《Perceptrons》 是 一 个 历史 的 转折 点 ， 
次 被 打倒 。Minsky 在 书 中 提出 了 两 个 著名 的 观点 。 
多 层 感知 机 来 表示 简单 的 非 线 
多 层 感知 机 训练 得 足够 好 。 
线性 不 可 分 函数 的 问题 ， 就 必须 发 
网 络 ， 但 是 当时 根 
疑 神 经 网 络 ， 悲 观 主义 开 


E KZ, 比如 XOR 映 射 ; 
而 言 之 ， 要 解决 感知 机 ( 单 层 神经 网 络 ) 学 习 
即 中 间 至 少 包含 
和 I 有 效 算法 。 


前 景 ? 


ia 
分 


不 可 


一 是 单 层 感知 机 没 
二 是 世界 上 没 


个 隐 层 的 多 层 神 经 
至 此 ， 学 术 权威 开始 质 


从 现在 看 ， 突破 性 的 误差 反 向 传播 算法 ， 即 著名 的 反 向 传播 算法 ， 开 启 训练 多 层 
神经 网 络 的 “钥匙 ">， 其 实 那个 时 候 已 经 存在 了 。 冰 冻 10 年 中 ， 尽 管 Paul Werbos 在 1974 年 
的 博士 毕业 论 文中 深 刘 分 } 析 了 将 反 向 传播 算法 运用 于 神经 网 络 方面 的 可 能 性 ， 成 为 美国 
第 一 位 提出 可 以 将 其 用 于 神经 网 络 的 研究 人 员 ， 但 是 他 没有 发 表 将 反 向 传播 算法 用 于 神 
经 网 络 这 方面 的 研究 ， 因 为 这 个 圈子 大 体 已 经 失去 解决 这 些 问题 的 信念 。 这 时 候 ， 
LeCun Yann 《他 给 自己 取 了 个 中 文 名 叫 杨 立 昆 ) 大 侠 上 场 了 ，20 世 纪 80 年 代 他 在 Hinton 


实验 室 做 博士 后 期 间 ， 


提出 了 神经 网 络 的 反 向 传播 算法 原型 


。1986 年 ，Rumelhart ` 


Hinton 和 Williams 合 著 Learning representations by back-propagating errors, JX MIRE RIE 


开始 流行 开 来 。 
LeCun Yann 和 其 他 人 发 


Vapnik 《贝尔 实验 室 的 同事 ) 出现 了 
它 同 样 解决 了 线性 不 可 
效 ， 可 以 快速 训练 ， 无 须 调 参 ， 


量 机 诞生 ， 


展 的 神经 网 络 正 


分 问 


没有 梯度 消失 i 


始 被 热 氛 的 时 候 ， 他 一 生 较 劲 的 对 象 
。20 世 纪 90 年 代 中 期 ， 由 Vapnik 等 人 发 明 的 支持 向 
题 ， 但 是 对 比 神经 网 络 有 全 方位 


ÈA o HEA, 


IZTER 


可 题 ; 


EB 好 ， 过 拟 合 风 险 小 。 支 持 


向 量 机 迅速 打败 多 层 神经 网 络 成 为 主流 。 后 来 一 度 发 展 到 ， 


络 相 
FUCA A BIS 。 
授 。 


2006 年 ，Hinton 在 《Science》 和 


关 的 字眼 ， 


10 年 沉 彼 中 ， 


就 非常 容易 被 拒 稿 ， 


学 术 界 那 时 对 神经 网 络 的 态度 可 


只 有 几 个 学 者 仍然 在 坚持 研究 ， 


络 ” 的 概念 。 与 传统 的 训练 方式 不 同 ， 深 度 信念 


法 或 者 其 他 算法 作为 调 优 的 手段 ， 


只 要 你 的 论文 中 包含 神经 网 
| 想 而 知 。 神 经 网 络 
比如 一 再 提 及 的 Hinton 教 


昌 关 期 刊 上 发 表 了 论文 ， 首 次 提出 了 “深度 置信 网 
念 网 络 有 一 个 “ 预 训 
是 让 神经 网 络 权 值 找到 一 个 接近 最 优 解 的 值 ， 之 后 再 使 用 “微调 ”技术 ， 使 用 


练 ” 的 过 程 ， 它 的 作用 
反 向 传播 算 


来 对 整个 网 络 进行 优化 训练 。 这 两 个 技术 的 运用 大 幅 


度 提升 了 模型 的 性 能 ， 而 且 减 少 了 训练 多 层 神经 网 络 的 时 间 。 他 给 多 层 神经 网 络 相关 的 
学 习 方法 赋予 了 一 个 新 名 词 一 “深度 学 


后 面 的 故事 我 们 都 知道 了 ，2012 年 Hinton 的 团队 jLeCun 赖 以 成 名 的 疮 积 神 经 网 
络 ， 和 自己 在 深度 置信 网 络 的 调 优 技术 ， 碾 压 了 其 他 机 器 学 习 办 法 。 至 此 ， 深 度 学 习 
始 蕉 断 人 工 智 能 的 新 闻 报 道 ，Hinton、LeCun 和 他 们 的 学 生 像 摇滚 明星 一 般 受 到 追捧 ， 
学 者 们 的 态度 也 来 了 个 180 度 大 转变 ， 现 在 是 没有 和 深度 学 习 沾 上 边 的 文章 很 难 发 表 
了 。 除 了 名 ， 还 有 利 ，Google、Facebook 等 大 公司 不 但 把 学 术 界 人 物 挖 了 个 遍 ， 更 是 重 
金 收购 深度 学 习 大 佬 们 所 创建 的 公司 ， 坐 了 几 十 年 冷 板 介 的 人 忽然 一 夜 之 间 吴 价 暴涨 、 
财务 自由 。 a, 现在 主导 Facebook AI 实验 室 的 LeCun Yann 则 不 断 呼吁 学 术 界 对 深度 
学 习 保持 冷 


ost 


04 ”神经 网 络 训练 技巧 


场景 描述 


在 大 规模 神经 网 络 的 训练 过 程 中 ， 我 们 常常 会 面临 “过 拟 合 ” 的 问 
题 ， 即 当 参 数 数目 过 于 庞大 而 相应 的 训练 数据 短缺 时 ， 模 型 在 训练 集 
上 损失 值 很 小 ， 但 在 测试 集 上 损失 较 大 ， 泛 化 能 力 很 差 。 解 决 “ 过 拟 
合 ” 的 方法 有 很 多 ， 包 括 数 据 集 增强 (Data Augmentation) 、 参 数 范 数 
惩罚 /正则 化 (Regularization) 、 模 型 集成 (Model Ensemble) 等 ;其 
中 Dropout 是 模型 集成 方法 中 最 高 效 与 常用 的 技巧 。 同 时 ， 深 度 神经 网 
络 的 训练 中 涉及 诸多 手 调 参 数 ， 如 学 习 率 、 权 重 衰减 系数 、Dropout 比 
例 等 ， 这 些 参数 的 选择 会 显著 影响 模型 最 终 的 训练 效果 。 批 量 归 一 化 
(Batch Normalization, BN) 方法 有 效 规避 了 这 些 复杂 参数 对 网 络 训 
练 产 生 的 有 影响， 在 加 速 训练 收敛 的 同时 也 提升 了 网 络 的 沁 化 能 


ALARA 
概率 与 统计 ， 深 度 学 习 


问题 1 神经 网 络 训练 时 是 否 可 以 将 全 部 参数 初始 化 为 0? 


难度 : ERE: kk 


分 析 与 解答 


考虑 全 连接 的 深度 神经 网 络 ， 同 一 层 中 的 任意 神经 元 都 是 同 构 
的 ， 它 们 拥有 相同 的 输入 和 输出 ， 如 有 果 再 将 参数 全 部 初始 化 为 同样 的 


值 ， 那 么 无 论 前 癌 传 播 还 古 反 问 传 播 的 取 值 都 是 完全 相同 的 。 学 习 过 
| 称 性 ， 最 终 同 一 网 络 层 中 的 各 个 参数 仍然 是 
日 同 的 。 


因此 ， 我 们 需要 随机 地 初始 化 神经 网 络 参数 的 值 ， 以 打破 这 种 对 
1 1 


称 性 。 简 单 来 说 ， 我 们 可 以 初始 化 参数 为 取 值 范围 、V4 Vd .的 均匀 分 
布 ， 其 中 qd 是 一 个 神经 元 接受 的 输入 维度 。 偶 置 可 以 被 简 单 地 设 为 0， 
并 不 会 导致 参数 对 称 的 问题 。 


问题 2 ”为 什么 Dropout 可 以 抑制 过 拟 合 ? 它 的 工作 原理 和 
实现 ? 


难度 ， 克 交友 六 六 
分 析 与 解答 


Dropout 是 指 在 深度 网 络 的 训练 中 ， 以 一 定 的 概率 随机 地 “I 临 时 丢 
弃 ” 一 部 分 神经 元 节点 。 有 具体 来 讲 ，Dropout 作 用 于 每 份 小 批量 训练 数 
据 ， 由 于 其 随机 丢弃 部 分 神经 元 的 机 制 ， 相 当 于 每 次 送 代 都 在 训练 不 
同 结构 的 神经 网 络 。 类 比 于 Bagging 方 法 ，Dropout 可 被 认为 是 一 种 实 
用 的 大 规模 深度 神经 网 络 的 模型 集成 算法 。 这 是 由 于 传统 意义 上 的 
Bagging 涉 及 多 个 模型 的 同时 训练 与 测试 评估 ， 当 网 络 与 参数 规模 庞大 
时 ， 这 种 集成 方式 需要 消耗 大 量 的 运算 时 间 与 空间 。Dropout 在 小 批量 
级 别 上 的 操作 ， 提 供 了 一 种 轻 量 级 的 Bagging 集 成 近似 ， 能 够 实现 指数 
级 数量 神经 网 络 的 训练 与 评测 。 


Dropout 的 具体 实现 中 ， 要 求 某 个 神经 元 下 点 激活 值 以 一 定 的 概率 
D 被 “丢弃 "， 即 该 神经 元 暂时 停止 工作 ， 如 图 9.12 所 示 。 因 此 ， 对 于 包 
含 N 个 神经 元 节点 的 网 络 ， 在 Dropout 的 作用 下 可 看 作为 2* 个 模型 的 集 
成 。 这 2 个 模型 可 认为 是 原始 网 络 的 子 网 络 ， 它 们 共 至 部 分 权 值 ， 并 
且 具 有 相同 的 网 络 层 数 ， 而 模型 整体 的 参数 数目 不 变 ， 这 就 大 大 简化 


了 运算 。 对 于 任意 神经 元 ， 每 次 训练 中 都 与 一 组 随机 挑选 的 不 同 的 神 
经 元 集合 共同 进行 优化 ， 这 个 过 程 会 减弱 全 体 神 经 元 之 间 的 联合 适应 
性 ， 减 少 过 拟 合 的 风险 ， 增 强 泛 化 能 力 。 


在 神经 网 络 中 应 用 Dropout 包 括 训 练 和 预测 两 个 阶段 。 在 训练 阶段 
中 ， 每 个 神经 元 节点 需要 增加 一 个 概率 系数 ， 如 图 9.13 所 示 。 训 练 阶 
前 向 传播 和 反 向 传播 两 个 步骤 。 原 始 网 络 对 应 的 前 向 传播 公 
T y 
git) = wey + pty 
(9.30) 
y= fare) 


(9.31) 


(b ) 采用 Dropout 模块 后 的 网 络 结果 


图 9.12 ”Dropout 模 块 示意 图 


(a) 标准 网 络 (b) Dropout 网 络 


图 9.13 ”标准 网 络 和 Dropout 网 络 的 对 比 
应 用 Dropout 之 后 ， 前 问 传 播 公 式 变 为 


r‘~Bernoulli(p) 
(9.32) 
JL =O Hy 
(9.33) 
zD = wD y 4 BOD 
(9.34) 
ye = f(z”), 
(9.35) 


上 面 的 Bernoulli 函 数 的 作用 是 以 概率 系数 p 随 机 生成 一 个 取 值 为 0 或 1 的 
癌 量 ， 代 表 每 个 神经 元 是 否 需 要 被 丢弃 。 如 果 取 值 为 0， 则 该 神经 元 
将 不 会 计算 梯度 或 参与 后 面 的 误差 传播 。 


测试 阶段 是 前 癌 传 播 的 过 程 。 在 前 同 传 播 的 计算 时 ， 每 个 神经 元 
的 参数 要 预先 乘 以 概率 系数 p， 以 恢复 在 训练 中 该 神经 元 只 有 p 的 概率 


被 用 于 整个 神经 网 络 的 前 向 传播 计算 。 
更 多 详细 内 容 及 实验 性 能 对 比 请 查看 参考 文献 [19]。 


问题 3 批量 归 一 化 的 基本 动机 与 原理 是 什么 ? 在 卷 积 神 
经 网 络 中 如 何 使 用 ? 


TREE: tok acy 
分 析 与 解答 


神经 网 络 训练 过 程 的 本 质 征 学 习 数 据 分 布 ， 如 采 训 练 数据 与 测试 
数据 的 分 布 不 同 将 大 大 降低 网 络 的 泛 化 能 力 ， 因 此 我 们 需要 在 训练 开 
始 前 对 所 有 输入 数据 进行 归 一 化 处 理 。 


然而 随 着 网 络 训练 的 进行 ， 每 个 隐 层 的 参数 变化 使 得 后 一 层 的 输 
入 发 生变 化 ， 从 而 每 一 批 训练 数据 的 分 布 也 随 之 改变 ， 致 使 网 络 在 每 
次 类 代 中 部 需 要 拟 合 不 同 的 数据 分 布 ， 增 大 训练 的 复杂 大 以 及 过 拟 合 
的 风险 。 


批量 归 一 化 方法 是 针对 每 一 批 数 据 ， 在 网 络 的 每 一 层 输入 之 前 增 
加 归 一 化 处 理 〈 均 值 为 0， 标 准 差 为 1) ， 将 所 有 批 数据 强制 在 统一 的 
数据 分 布下 ， 即 对 该 层 的 任意 一 个 神经 元 (假设 为 第 k 维 ) 如 "采用 如 
FTAA 


„Var[x®] 


(9.36) 


其 中 x(9 为 该 层 第 K 个 神经 元 的 原始 输入 数据 ，E[x9] 为 这 一 批 输入 数据 
在 第 K 个 神经 元 的 均值 ，VPee 为 这 一 批 数据 在 第 K 个 神经 元 的 标准 


5E o 


批量 归 一 化 可 以 看 作 在 每 一 层 输入 和 上 一 层 输出 之 间 加 入 了 一 个 
新 的 计算 层 ， 对 数据 的 分 布 进行 额外 的 约束 ， 从 而 增强 模型 的 泛 化 能 
力 。 但 十 批量 归 一 化 同时 也 降低 了 模型 的 拟 合 能 力 ， 归 一 化 之 后 的 输 
入 分 布 被 强制 为 0 均值 和 1 标准 差 。 以 Sigmoid 激 活 函 数 为 例 ， 批 量 归 一 
化 之 后 数据 整体 处 于 函数 的 非 饱和 区 域 ， 只 包含 线性 变换 ， 破 坏 了 之 
前 学 习 到 的 特征 分 布 。 为 了 恢复 原始 数据 分 布 ， 具体 实现 中 引入 了 变 
换 重 构 以 及 可 学 习 参 数 y 和 Pp: 


(kK) _ , (k) a(k) (k) 
yr arn +P 


(9.37) 


YO ABO 5p ANN HA BUR OD ABS) Te A ae e TP A PE 

不 采用 批量 归 一 化 操作 时 ， 这 两 个 参数 高 度 依赖 前 面 网 络 学 习 到 的 连 
接 权 重 〈 对 应 复杂 的 非 线性 ) 。 而 在 批量 归 一 化 操作 中 ，y 和 8 变 成 了 
该 层 的 学 习 参 数 ， 仅 用 两 个 参数 吏 可 以 恢复 最 优 的 输入 数据 分 布 ， 与 
之 前 网 络 层 的 参数 解 耕 ， 从 而 更 加 有 利于 优化 的 过 程 ， 提 高 模型 的 泛 


(9.38) 


(9.39) 


(9.40) 


Yi 全 + B = BN, (x). 
(9.41) 


批量 归 一 化 在 卷 积 神经 网 络 中 应 用 时 ， 需 要 注意 卷 积 神经 网 络 的 
参数 共享 机 制 。 每 一 个 卷 积 核 的 参数 在 不 同位 置 的 神经 元 当中 是 共享 
的 ， 因 此 也 应 该 被 一 起 归 一 化 。 具 体 实现 中 ， 假 设 网 络 训练 中 每 一 批 
包含 5 个 样本 ， 由 一 个 卷 积 核 生 成 的 特征 几 的 宽 高 分 别 为 w 和 户 ， 则 每 
个 特征 图 所 对 应 的 全 部 神经 元 个 数 为 bxwxh; 利用 这 些 神 经 元 对 应 的 
所 有 输入 数据 ， 我 们 根据 一 组 待 学习 的 参数 y 和 8 对 每 个 输入 数据 进行 
。 如 有 果 有 f 个 卷 积 核 ， 束 对 应 个 特征 图 和 f 组 不 同 的 y 和 
BEB ° 


05 ”深度 卷 积 神经 网 络 


场景 描述 


卷 积 神经 网 络 (Convolutional Neural Networks, CNN) 也 是 一 种 
前 馈 神 经 网 络 ， 其 特点 是 每 层 的 神经 元 节点 只 响应 前 一 层 局 部 区 域 范 
围 内 的 神经 元 〈 全 连接 网 络 中 每 个 神经 元 节点 响应 前 一 层 的 全 部 节 
点 ) © 一 个 深度 着 积 神经 网 络 模型 通常 出 若干 卷 积 层 释 加 基干 全 连接 
层 组 成 ， 中 间 也 包含 各 种 非 线性 操作 以 及 池 化 操作 。 卷 积 神经 网 络 同 
样 可 以 使 用 反 辐 传播 算法 进行 训练 ， 相 较 于 其 他 网 络 模型 ， 卷 积 操作 
的 参数 共享 特性 使 得 需要 优化 的 参数 数目 大 大 缩减 ， 提 高 了 模型 的 训 
练 效 率 以 及 可 扩展 性 。 由 于 卷 积 运算 主要 用 于 处 理 类 网 格 结构 的 数 
据 ， 因 此 对 于 时 间 序 列 以 及 图 像 数据 的 分 析 与 识别 具有 显著 优势 。 


图 9.14 是 卷 积 神经 网 络 的 一 个 经 典 结构 示意 图 。 这 是 LeCun Yann 
在 1998 年 提出 的 卷 积 神经 网 络 结构 ， 输 入 在 经 历 几 次 卷 积 和 池 化 层 的 
重复 操作 之 后 ， 接 入 几 个 全 连通 层 并 输出 预测 结果 ， 已 成 功 应 用 于 手 
写 体 识 别 任务 。 


输入 


b RE 


图 9.14 ”LeNet 卷 积 神经 网 络 


图 像 处 理 ， 深度 学 习 ， 目 外 语言 A 处 理 


问题 1 ” 卷 积 操作 的 本 质 特性 包括 稀疏 交互 和 参数 共 亨 ， 
具体 解释 这 两 种 特性 及 其 作用 。 


E: kN 


分 析 与 解答 


u 稀 玖 交互 (Sparse Interaction) 


在 传统 神经 网 络 中 ， 网 络 层 之 间 输入 与 输出 的 连接 关系 可 以 由 一 
个 权 值 参数 矩阵 来 表示 ， 其 中 每 个 单独 的 参数 值 都 表示 了 前 后 层 某 两 
个 神经 元 节点 之 间 的 交互 。 对 于 全 连接 网 络 ， 任 意 一 对 输入 与 输出 神 
经 元 之 间 都 产生 交互 ， 形 成 稠密 的 连接 结构 ， 如 图 9.15 所 示 ， 神 经 元 s 
与 输入 的 所 有 神经 元 x 均 有 连接 。 


图 9.15 ”全 连接 层 结构 示意 图 


而 在 卷 积 神经 网 络 中 ， 卷 积 核 尺 度 远 小 于 输入 的 维度 ， 这 样 每 个 
输出 神经 元 仅 与 前 一 层 特定 局 部 区 域内 的 神经 元 存在 连接 权重 〈 即 产 
EXE) ， 我 们 称 这 种 特性 为 稀疏 交互 ， 如 图 9.16 所 示 。 可 以 看 到 与 
稠密 的 连接 结构 不 同 ， 神 经 元 si 仅 与 前 一 层 中 的 xi -7 、% 和 xi+7 相 连 。 具 
体 来 讲 ， 假 设 网 络 中 相 邻 两 层 分 别 具 有 m 个 输入 和 n 个 输出 ， 全 连接 网 
络 中 的 权 值 参数 矩阵 将 包含 mxn 个 参数 。 对 于 稀 玖 交互 的 卷 积 网 络 ， 
如 有 条 限定 每 个 输出 与 前 一 层 神经 元 的 连接 数 为 K， 那 么 该 层 的 参数 总 量 


为 kxn。 在 实际 应 用 中 ， 一 般 k 值 远 小 于 m 就 可 以 取得 较为 可 观 的 效 
AR; 而 此 时 优化 过 程 的 时 间 复 杂 度 将 会 减 小 几 个 数量 级 ， 过 拟 合 的 情 
况 也 得 到 了 较 好 的 改善 。 


29.16 “ 卷 积 层 结构 示意 图 


黎 斑 交互 的 物理 意义 是 ， 通 间 图 像 、 文 本 、 语 音 等 现实 世界 中 的 
数据 都 具有 局 部 的 特征 结构 ， 我 们 可 以 先 学 习 局 部 的 特征 ， 再 将 局 部 
的 特征 组 合 起 来 形成 更 复杂 和 抽象 的 特征 。 以 人 脸 识别 为 例 ， 最 瓜 层 
的 神经 元 可 以 检测 出 各 个 角度 的 边缘 特征 ( 见 图 9.17 (a) ) ; 位 于 中 
间 层 的 神经 元 可 以 将 边 绿 组 合 起 来 得 到 眼睛 、 虹 了 于、 嘴巴 等 复杂 特征 

( 见 图 9.17 (b) ) ; 最 后 ， 位 于 上 层 的 神经 元 可 以 根据 各 个 器 官 的 组 
合 检测 出 人 脸 的 特征 〈 见 图 9.17 (c) ) e 


图 9.17 人 脸 识 别 中 不 同 卷 积 层 的 可 视 化 
a 参数 共享 (Parameter Sharing) 


参数 共享 是 指 在 同一 个 模型 的 不 同 模块 中 使 用 相同 的 参数 ， 它 是 
卷 积 运算 的 固有 属性 。 全 连接 网 络 中 ， 计 算 每 层 的 输出 时 ， 权 值 参 数 
答 阵 中 的 每 个 元 素 只 作用 于 某 个 输入 元 素 一 次 ， 而 在 卷 积 神经 网 络 
中 ， 卷 积 核 中 的 每 一 个 元 素 将 作用 于 每 一 次 局 部 输入 的 特定 位 置 上 。 
根据 参数 共 译 的 思想 ， 我 们 只 需要 学 习 一 组 参数 集合 ， 而 不 需要 针对 
每 个 位 置 的 每 个 参数 都 进行 优化 ， 从 而 大 大 降低 了 模型 的 存储 需求 。 
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有 一 只 狂 ， 那 么 无 论 它 出 现在 图 像 中 的 任何 位 置 ， 我 们 都 应 该 将 它 识 
别 为 猫 ， 也 束 古 说 神经 网 络 的 输出 对 于 平移 变换 来 说 应 当 是 等 变 的 。 
特别 地 ， 当 函数 f(x) 与 q(x) 满足 f(g(x))=g( 耻 (x) 时 ， 我 们 称 f(x) 关于 变换 
g 具 有 等 变性 。 将 g 视 为 输入 的 任意 平移 函数 ， 令 I 表示 输入 图 像 (在 整 
BULENT) ， 平 移 变换 后 得 到 P=g(。 例 如 ， 我 们 把 猫 
的 图 像 向 右 移 动 ! 像 素 ， 满 足 P(x,y)=1(x-Ly)。 我 们 令 f 填 示 卷 积 画 数 ， 
根据 其 性 质 ， 我 们 很 容易 得 到 g( RD)=f (7)=f (g(1))。 也 束 古 说 ， 在 猎 
的 图 片上 先进 行 卷 积 ， 再 回 右 平移 ;像素 的 输出 ， 与 先 将 图 片 问 右 平 移 
! 像 素 再 进行 卷 积 操作 的 输出 结果 钙 相 等 的 。 


问题 2 常用 的 池 化 操作 有 哪些 ? 池 化 的 作用 是 什么 ? 


难度 ， 竣 克 友 次 六 
分 析 与 解答 


常用 的 池 化 操作 主要 针对 非 重 车 区 域 ， 包 括 均 值 池 化 (mean 
pooling) ` KWM (max pooling) 等 。 其 中 均值 池 化 通过 对 邻 域 内 
特征 数值 求 平 均 来 实现 ， 能 够 抑制 由 于 邻 域 大 小 受 限 造成 估计 值 方差 
增 大 的 现象 ， 特 点 是 对 背景 的 保留 效果 更 好 。 最 大 池 化 则 通过 取 邻 域 
内 特征 的 最 大 值 来 实现 ， 能 够 抑制 网 络 参 数 误 差 造 成 估计 均值 偏 移 的 
现象 ， 特 点 是 更 好 地 提取 纹理 信息 。 池 化 操作 的 本 质 是 降 采 样 。 例 
如 ， 我 们 可 以 利用 最 大 池 化 将 4x4 的 矩阵 降 采 样 为 2x2 的 矩阵 ， 如 图 
9.18 所 示 。 图 中 的 池 化 操作 窗口 大 小 为 2x2， 步 长 为 2。 每 次 在 2x2 大 小 \ 
的 窗口 上 进行 计算 ,均值 池 化 是 求 窗口 中 元 素 的 均值 ， 最 大 池 化 则 求 
窗口 中 元 素 的 最 大 值 ， 然 后 将 窗口 向 右 或 癌 下 平移 两 格 ， 继 续 操 作 。 


Be 
图 9.18 池 化 操作 示意 图 


此 外 ， 特 殊 的 池 化 方式 还 包括 对 相 邻 重生 区 域 的 池 化 以 及 空间 金 
字 塔 池 化 。 相 邻 重合 区 域 的 池 化 ， 顾 名 思 义 ， 古 采用 比 窗口 宽度 更 小 
的 步 长 ， 使 得 窗口 在 每 次 滑动 时 存在 重合 的 区 域 。 空 间 金 字 塔 池 化 主 
要 考虑 了 多 尺度 信息 的 描述 ， 例 如 同时 计算 1x1、2x2、4x4 的 矩阵 的 
池 化 并 将 结果 拼接 在 一 起 作为 下 一 网 络 层 的 输入 。 


池 化 操作 除了 能 显著 降低 参数 量 外 ， 还 能 够 保持 对 平移 、 伸 缩 、 
旋转 操作 的 不 变性 。 平 移 不 变性 是 指 输出 结 采 对 输入 的 小 量 平移 基本 
保持 不 变 。 例 如 ， 输 入 为 (1,5,3) ， 最 大 池 化 将 会 取 5， 如 有 果 将 输入 厂 
移 一 位 得 到 (0,1,5) ， 输 出 的 结果 仍 将 为 5。 对 伸缩 的 不 变性 (一 般 称 
为 尺度 不 变性 ) 可 以 这 样 理解 ， 如 果 原 先 神 经 元 在 最 大 池 化 操作 之 后 
输出 5， 那 么 在 经 过 伸缩 (尺度 变换 ) 之 后 ， 最 大 池 化 操作 在 该 神经 元 
上 很 大 概率 的 输出 仍然 是 5。 因 为 神经 元 感受 的 是 邻 域 输入 的 最 大 值 ， 
而 并 非 某 一 个 确定 的 值 。 旋 转 不 变性 可 以 参照 图 9.19。 图 中 的 神经 网 
络 由 3 个 学 得 的 过 滤 卓 和 一 个 最 大 池 化 层 组 成 。 这 3 个 过 滤 絮 分 别 学 习 
到 不 同 旋转 方向 的 “5”。 当 输入 中 出 现 “5” 时 ， 无 论 进 行 何 种 方向 的 旋 
转 ， 都 会 有 一 个 对 应 的 过 滤 絮 与 之 匹配 并 在 对 应 的 神经 元 中 引起 大 的 
激活 。 最 终 ， 无 论 哪个 神经 元 获得 了 激活 ， 在 经 过 最 大 池 化 操作 之 后 
输出 都 会 具有 大 的 激活 。 


池 化 单元 的 响应 


检测 单元 1 
的 响应 


(a) 旋转 角度 1 (b) 旋转 角度 2 


图 9.19 ” 池 化 操作 的 旋转 不 变性 


问题 3 ” 卷 积 神 经 网 络 如 何 用 于 文本 分 类 任务 ? 


难度 ， 克 交友 交 六 
分 析 与 解答 


卷 积 神 经 网 络 的 核心 思想 是 捕捉 局 部 特征 ， 起 初 在 图 像 领 域 取得 
了 巨大 的 成 功 ， 后 来 在 文本 领域 也 得 到 了 广泛 的 应 用 。 对 于 文本 来 
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不 同 抽 象 层次 的 语义 信息 。 由 于 在 每 次 卷 积 中 采用 了 共 译 权重 的 机 
制 ， 因 此 它 的 训练 速度 相对 较 快 ， 在 实际 的 文本 分 类 任务 中 取得 了 非 
常 不 错 的 效果 。 


图 9.20 是 一 个 用 卷 积 神经 网 络 模型 进行 文本 表示 ， 并 最 终 用 于 文 
本 分 类 的 网 络 结构 [29 。 


输入 层 卷 积 层 字 化 层 输出 层 


图 9.20” 卷 积 网 络 在 文本 分 类 任务 上 的 应 用 


(1) 输入 层 是 一 个 NxK 的 和 矩阵， 其 中 NN 为 文章 所 对 应 的 单词 总 
数 ，K 是 每 个 词 对 应 的 表示 向 量 的 维度 。 每 个 词 的 K 维 向 量 可 以 是 预先 
在 其 他 语料库 中 训练 好 的 ， 也 可 以 作为 未 知 的 参数 由 网 络 训练 得 到 。 
这 两 种 方法 各 有 优势 ， 一 方面 ， 预 先 训练 的 词 散 入 可 以 利用 其 他 语 料 
库 得 到 更 多 的 先 验 知识 ， 男 一 方面 ， 由 当前 网 络 训练 的 词 癌 量 能 够 更 
好 地 抓 住 与 当前 任务 相关 联 的 特征 。 因 此 ， 图 中 的 输入 层 实 际 采 用 了 
两 个 通道 的 形式 ， 即 有 两 个 NxK 的 输入 矩阵， 其 中 一 个 用 预先 训练 好 
的 词 舱 入 表达 ， 并 且 在 训练 过 程 中 不 再 发 生变 化 ， 男 外 一 个 也 由 同样 
的 方式 初始 化 ， 但 是 会 作为 参数 ， 随 着 网 络 的 训练 过 程 发 生 改变 。 


(2) 第 二 层 为 卷 积 层 。 在 输入 的 NxK 维 矩阵 上 ， 我 们 定义 不 同 大 
小 的 滑动 窗口 进行 卷 积 操作 


C, Sf (We Xi +b), 


(9.42) 
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hxK 的 滑动 窗口 ，w 为 Kxh 维 的 权重 矩阵 ，b 为 偏 置 参数 。 假 设 h 为 3， 

则 每 次 在 2xK 的 滑动 窗口 上 进行 卷 积 ， 并 得 到 N-2 个 结果 ， 再 将 这 N-2 
个 结果 拼接 起 来 得 到 N-2 维 的 特征 向 量 。 每 一 次 卷 积 操作 相当 于 一 次 
特征 回 量 的 提取 ， 通 过 定义 不 同 的 请 动 窗口 ， 就 可 以 提取 出 不 同 的 特 
征 癌 量 ， 构 成 卷 基 层 的 输出 。 


(3) 第 三 层 为 池 化 层 ， 比 如 图 中 所 示 的 网 络 采用 了 1-Max 池 化 ， 
即 为 从 每 个 少 动 窗口 产生 的 特征 癌 量 中 科 选 出 一 个 最 大 的 特征 ， 然 后 


将 这 些 特征 拼接 起 来 构成 向 量 表示 。 也 可 以 选用 K-Max 池 化 〈 选 出 每 
个 特征 向 量 中 最 大 的 K 个 特征 ) ， 或 者 平均 池 化 (将 特征 向量 中 的 每 
一 维 取 平 均 ) 等 ， 达 到 的 效果 都 是 将 不 同 长 度 的 句子 通过 池 化 得 到 一 
个 定 长 的 网 量 表示 。 


(4) 得 到 文本 的 同 量 表示 之 后 ， 后 面 的 网 络 结构 就 和 具体 的 任务 
相关 了 。 本 例 中 展示 的 是 一 个 文本 分 类 的 场景 ， 因 此 最 后 接 入 了 一 个 
全 连接 层 ， 并 使 用 Softmax 激 活 函 数 输出 每 个 类 别 的 概率 。 


06 ”深度 残 差 网 络 


场景 描述 


随 着 大 数据 时 代 的 到 来 ， 数 据 规模 日 益 增 加 ， 这 使 得 我 们 有 可 能 
训练 更 大 容量 的 模型 ， 不 断 地 提升 模型 的 表示 能 力 和 精度 。 深 度 神 经 
网 络 的 层 数 决 定 了 模型 的 容量 ， 然 而 随 着 神经 网 络 层 数 的 加 深 ， 优 化 
函数 越 来 越 陷入 局 部 最 优 解 。 同 时 ， 随 着 网 络 层 数 的 增加 ， 梯 度 消 失 
的 问题 更 加 严重 ， 这 是 因为 樟 度 在 反 回 传播 时 会 逐渐 衰减 。 特 别 是 利 
用 Sigmoid 激 活 函 数 时 ， 使 得 远离 输出 层 〈 即 接近 输入 层 ) 的 网 络 层 不 
能 够 得 到 有 效 的 学 习 ， 影 响 了 模型 泛 化 的 效果 。 为 了 改善 这 一 问题 ， 
深度 学 习 领 域 的 研究 员 们 在 过 去 十 几 年 间 答 试 了 许多 方法 ， 包 括 改进 
训练 算法 、 利 用 正则 化 、 设 计 特 殊 的 网 络 结构 等 。 其 中 ， 深 度 残 差 网 
络 (Deep Residual Network, ResNet) 是 一 种 非常 有 效 的 网 络 结构 改 
进 ， 极 大 地 提高 了 可 以 有 效 训练 的 深度 神经 网 络 层 数 。ResNet 在 
ImageNet 竞 赛 和 AlphaGo Zero 的 应 用 中 都 取得 了 非常 好 的 效果 。 图 9.21 
展示 了 ImageNet 竞 赛 在 2010 年 一 2015 年 的 比赛 时 取得 冠军 的 模型 层 数 
演化 ; 在 2015 年 时 ， 利 用 ResNet 训 练 的 模型 已 达到 152 层 ， 并 且 相 较 往 
年 的 模型 取得 了 很 大 的 精度 提升 。 如 今 ， 我 们 可 以 利用 深度 残 差 网 络 
训练 一 个 拥有 成 百 上 于 网络 层 的 模型 。 


152 layers 


ILSVRC'15 ILSVRC'14 ILSVRC'4 ILSVRC'"3 ILSVRC"2 ILSVRC'IL ~~ ILSVRC'10 
ResNet GoogleNet VGG AlexNet 


分 类 任务 的 Top 5 HR (%) 


图 9.21 ImageNet 竞 赛 历 年 冠军 采用 的 模型 和 对 应 的 效果 
知识 后 
线性 代数 ， 深 度 学 习 


问题 ResNet 的 提出 背景 和 核心 理论 是 什么 ? 


IERE: A 
分 析 与 解答 


ResNet 的 提出 背景 是 解决 或 绥 解 深层 的 人 神 经 网 络 训练 中 的 梯度 消 
失 问 题 。 假 设 有 一 个 L 层 的 深度 神经 网 络 ， 如 果 我 们 在 上 面 加 入 一 
层 ， 直 观 来 讲 得 到 的 L+1 层 深度 神经 网 络 的 效果 应 该 至 少 不 会 比 L 层 的 
差 。 因 为 我 们 简单 地 设 最 后 一 层 为 前 一 层 的 拷贝 〈 用 一 个 恒 等 映 射 即 
可 实现 ) ， 并 且 其 他 层 维持 原来 的 参数 即 可 。 然 而 在 进行 反 向 传播 


时 ， 我 们 很 难 找到 这 种 形式 的 解 。 实 际 上 ， 通 过 实验 发 现 ， 层 数 更 深 
的 神经 网 络 反 而 会 具有 更 大 的 训练 误差 。 在 CIFAR-10 数 据 集 上 的 一 个 
结果 如 图 9.22 所 示 ，56 层 的 网 络 反 而 比 20 层 的 网 络 训练 误差 更 大 ， 这 
很 大 程度 上 归结 于 深度 神经 网 络 的 梯度 消失 问题 R11。 
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(a) 训练 误差 (b) 测试 误差 


图 9.22 ”20 层 网 络 和 56 层 网 络 在 CIFAR-10 数 据 集 上 的 训练 误差 和 测试 误差 


为 了 解释 标 度 消失 问题 是 如 何 产 生 的 。 回 顾 第 3 节 推 导出 的 误 莽 传 
播 公式 


SI+l 
l l l+1 if 
ô! _ ($r a + re )) 
j=l 


(9.43) 
将 式 (9.31) 再 展开 一 层 ， 可 以 得 到 
50 = Sx (Sa reps |r) 
(9.44) 
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乘 的 形式 。 当 误差 由 第 L 层 GLO”) 传播 到 除 输入 以 外 的 第 一 个 隐 
SE ( 记 为 6 的 时 候 ， 会 涉及 非常 多 的 参数 和 导数 的 连 乘 ， 这 时 误 
差 很 容易 产生 消失 或 者 膨胀 ， 影 响 对 该 层 参 数 的 正确 学 习 。 因 此 深度 


神经 网 络 的 拟 合 和 泛 化 能 力 较 莽 ， 有 时 甚至 不 如 浅 层 的 神经 网 络 模型 
精度 更 高 。 


ResNet iii id jR P25 25 FR ARE lt (el ° Ee J Te 
eA HB ( 见 图 9.23 (a) ) ， 这 时 输入 x 经 过 两 个 网 络 层 的 变换 
得 到 HooO， 激 活 函 数 采用 ReLU。 反 回 传 播 时 ， 梯 度 将 涉及 两 层 参 数 的 
交叉 相 乘 ， 可 能 会 在 离 输 入 近 的 网 络 层 中 产生 梯度 消失 的 现象 。 
ResNet 把 网 络 结构 调整 为 ， 既 然 离 输入 近 的 神经 网 络 层 较 难 训练 ， 那 
么 我 们 可 以 将 它 短 接 到 更 靠近 输出 的 层 ， 如 图 9.23 b) 所 示 。 输 入 x 
经 过 两 个 神经 网 络 的 变换 得 到 F(x)， 同 时 也 短 接 到 两 层 之 后 ， 最 后 这 
个 包含 两 层 的 神经 网 络 模块 输出 H(x)=F(x)+x。 这 样 一 来 ，F(x) 被 设计 
为 只 需要 拟 合 输入 x 与 目标 输出 右 (Xx) 的 残 差 了 (xX)-x， 残 差 网 络 的 名 称 
也 因此 而 来 。 如 果 某 一 层 的 输出 已 经 较 好 的 拟 合 了 期 望 结果 ， 那 么 多 
加 入 一 层 不 会 使 得 模型 变 得 更 差 ， 因 为 该 层 的 输出 将 直接 被 短 接 到 两 
层 之 后 ， 相 当 于 直接 学 习 了 一 个 恒 等 映 射 ， 而 跳 过 的 两 层 只 需要 拟 合 


上 层 输 出 和 目标 之 间 的 残 差 即 可 。 
F (x) relu identity 


H (x)=F (x)+x 


H (x) 


(a) 标准 网 络 结构 (b ) ResNet 网 络 结构 


图 9.23 ”ResNet 结 构 示意 图 


ResNet 可 以 有 效 改善 深层 的 神经 网 络 学 习 问题 ， 使 得 训练 更 深 的 
网 络 成 为 可 能 ， 如 图 9.24 所 示 。 图 9.24 (a) 展示 的 是 传统 神经 网 络 的 
结果 ， 可 以 看 到 随 着 模型 结构 的 加 深 训 练 误差 反而 上 升 ， 而 图 9.24 
(b) 是 ResNet 的 实验 结果 ， 随 着 模型 结构 的 加 深 ， 训 练 误差 逐渐 降 
低 ， 并 且 优 于 相同 层 数 的 传统 的 神经 网 络 。 
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(a) 传统 神经 网 络 的 效果 (b) ResNet 网 络 的 效果 


图 9.24 ”ResNet 网 络 与 传统 网 络 的 效果 对 比 


Geoffrey Hinton 的 传奇 人 生 


深度 学 习 泰 斗 Geoffrey Hinton 的 名 字 在 当今 的 人 工 智 能 研究 界 可 谓 是 如 雷 贯 耳 ， 
他 曾 发 明了 玻 尔 效 曼 机 ， 也 首先 将 反 向 传播 应 用 于 多 层 神 经 网 络 。 不 仅 如 此 ， 他 还 有 
Yann LeCun 和 Ilya Sutskever 等 大 牛 级 的 学 生 。 


Hinton 教授 出 生 于 英国 的 温 布尔 登 。 他 的 母亲 是 一 位 数学 老师 ， 父 杀 是 一 个 专注 
1 壳 虫 研究 的 昆虫 学 家 。“ 国 民生 产 总 值 * 这 个 术语 ， 是 他 的 筋 筋 、 经 济 学 家 Colin Clark 
发 明 的 。 他 的 高 曾祖 父 是 19 世纪 的 逻辑 学 家 George Boole 一 一 现代 计算 科学 的 基础 布 
尔 代数 的 发 明 人 。 后 来 ， 他 们 家 搬 到 了 布 里 斯 托 ，Hinton 进 入 了 克 里 夫 顿 学 院 ， 这 所 学 
校 在 他 口中 是 个 “二 流 公 立 学 校 *。 正 是 在 这 里 ， 他 结识 的 一 个 朋友 给 他 讲 了 全 息 图 ， 讲 
了 人 脑 如 何 存储 记忆 ， 为 他 打开 了 AI 的 神奇 大 门 。 


高 中 毕业 后 ，Hinton 去 剑桥 大 学 学 习 物 理学 和 化 学 ， 但 只 读 了 1 个 月 就 退学 了 。 
一 年 后 ， 他 又 重新 申请 剑桥 大 学 并 转学 建筑 ， 结 果 又 退学 了 ， 这 次 他 只 坚持 了 1 天 。 然 
后 转向 物理 学 和 生理 学 ， 但 是 后 来 发 现 物理 学 中 的 数学 太 难 了 ， 因 此 转学 哲学 ， 花 1 年 
修 完了 2 年 的 课程 。Hinton 说 : “这 一 年 大 有 神 益 ， 因为 我 对 哲学 产生 了 强烈 的 搞 本 ， 
我 想 要 理解 人 类 意识 的 工作 原理 。” 为 此 ， 他 转向 了 心理 学 ， 仅 仅 为 了 确定 “心理 学 家 对 
人 类 意识 也 不 明 所 以 ”。 在 1973 年 前 往 爱 丁 堡 大 学 研究 生 院 学 习 人 工 智能 之 前 ， 他 故 了 
1 年 的 木 乓 。 他 在 爱丁堡 大 学 的 导师 是 Christopher Longuet-Higgins， 其 学 生 包 括 多 伦 多 
大 学 化 学 家 、 诺 贝尔 奖 得 主 John Polanyi 和 理论 物理 学 家 Peter Higgs。 


即使 当时 Hinton 已 经 确信 不 被 看 好 的 神经 网 络 才 是 正确 之 路 ， 但 他 的 导师 却 在 那 
时 刚 改 为 支持 人 工 智能 传统 论点 。Hinton w: “我 的 研究 生生 涯 充满 了 暴风 又 雨 ， 每 周 
我 和 导师 都 会 有 一 次 争吵 。 我 一 直 在 做 着 交易 ， 我 会 说 ， 好 吧 ， 让 我 再 做 6 个 月 时 间 的 
神经 网 络 ， 我 会 证 明 其 有 效 性 的 。 当 6 个 月 结束 了 ， 我 又 说 ， 我 几乎 要 成 功 了 ， 再 给 我 
6 个 月 。 目 此 之 后 我 一 直 说 ， 再 给 我 5 年 时 间 ， 而 其 他 人 也 一 直 说 ， 你 做 这 个 都 5 年 
了 ， 它 永远 不 会 有 效 的 。 但 终于 ， 神 经 网 络 奏效 了 。” 他 否认 自己 曾 怀疑 过 神经 网 络 末 
来 某 天 会 证 明 自 己 的 优越 性 :“ 我 从 没 怀疑 过 ， 因 为 大 脑 必然 是 以 某 种 方式 工作 的 ， 但 
绝对 不 是 以 某 种 规则 编程 的 方式 工作 的 。” 


数 年 来 ，Hinton 的 工作 不 仅 相对 来 说 令 人 费解 ， 而 且 在 一 场 长 达 10 年 的 计算 机 
科学 学 术 之 争 中 处 于 失利 的 一 方 。Hinton 说 ， 他 的 神经 网 被 获得 了 更 多 资助 的 人 工 智能 


传统 论 (需要 人 工 编程 ) 者 认为 是 “没有 头脑 的 废话 (weak-minded nonsense) ”, 2476 
期 刊 过 去 常常 拒 收 有 关 神 经 网 络 的 论文 。 


但 是 在 过 去 的 5 年 左右 的 时 间 里 ，Hinton 的 学 生 取得 了 一 系列 的 惊人 突破 ， 神 经 
网 络 变 得 十 分 流行 ，Hinton 也 被 尊称 为 计算 新 时 代 的 宗师 (guru of a new era of 
computing) 。 神 经 网 络 已 经 在 手机 中 为 绝 大 多 数 语 音 识别 软件 提供 支持 ， 其 还 能 识 昂 
不 同 种 类 的 狗 的 图 片 ， 精 确 度 几 乎 可 以 和 人 类 媲美 。 


“我 认为 对 他 太 多 赞美 都 不 为 过 。”Irvine 这 么 评价 Hinton AGE, “因为 也 经 历 过 人 
工 智能 的 黑暗 时 代 ， 那 时 候 他 看 起 来 就 像 是 一 位 疯狂 科学 家 ， 人 们 从 没 想 过 这 真 的 会 成 
Diya 现在 ， 年 的 事情 终于 发 生 了 ， 我 觉得 这 对 他 来 说 是 人 
很 好 的 奖励 ..…… 现在 这 已 经 掀起 了 全 世界 的 狂潮 而 他 就 是 教父 。 这 绝对 不 是 一 夜 之 间 
就 能 取得 的 成 功 。 


第 10 章 ”循环 神经 网 络 


作为 生物 体 ， 我 们 的 视觉 和 听觉 不 断 地 获得 市 有 序列 的 声音 和 疼 
像 信 号 ， 并 交 由 大 脑 理解 ， 同 时 我 们 在 说 话 、 写 作 、 芍 驶 等 过 程 中 不 
断 地 输出 序列 的 声音 、 文 字 、 操 作 等 信号 。 在 互联 网 公司 日 向 要 处 理 
的 数据 中 ， 也 有 很 多 是 以 序列 形式 存在 的 ， 例 如 文本 、 语 音 、 视 频 、 
所 击 流 等 等 。 因 此 ， 如 何 更 好 地 对 序列 数据 进行 建 模 ， 一 向 是 人 工 智 
能 领域 的 研究 的 要 点 。 


循环 神经 网 络 (Recurrent Neural Network, RNN) 是 用 来 建 模 序 
列 化 数据 的 一 种 主流 深度 学 习 模 型 。 我 们 知道 ， 传 统 的 前 馈 神 经 网 络 
一 般 的 输入 都 是 一 个 定 长 的 癌 量 ， 无 法 处 理 变 长 的 序列 信息 ， 即 使 通 
过 一 些 方法 把 序列 处 理 成 定 长 的 回 量 ， 模 型 也 很 难 捕捉 序列 中 的 长 距 
离 依赖 关系 。RNN 则 通过 将 神经 元 串 行 起 来 处 理 序 列 化 的 数据 。 由 于 
每 个 神经 元 能 用 它 的 内 部 变量 保存 之 前 输入 的 序列 信息 ， 因 此 整个 序 
列 被 浓缩 成 抽象 的 表示 ， 并 可 以 据 此 进行 分 类 或 生成 新 的 序列 。 近 年 
来 ， 得 葵 于 计算 能 力 的 大 幅 提 升 和 模型 的 改进 ，RNN 在 很 多 领域 取得 
了 突破 性 的 进展 机 器 翻译 、 序 列 标注 、 图 像 描 述 、 推 荐 系统 、 吞 
能 聊天 机 絮 人 、 上 自动 作词 作曲 等 。 


01 循环 神经 网 络 和 卷 积 神经 网 络 


场景 描述 


用 传统 方法 进行 文本 分 类 任务 时 ， 通 常 将 一 篇 文章 所 对 应 的 TF- 
IDF FLEET ARIA 其 中 TF-IDF 回 量 的 维度 是 词汇 表 的 大 小 。 使 用 前 
馈 神 经 网 络 ， AIO A SOR CREB 一 般 会 如 何 操作 ? 
使 用 循环 神经 网 络 对 文本 这 种 带 有 序列 信 电 的 数据 进行 建 模 时 ， 相 比 
卷 积 神经 网 络 又 会 有 什么 不 同 ? 


知识 后 
循环 神经 网 络 ， 前 馈 神经 网 络 


问题 ”处理 文本 数据 时 ， 循 环 神经 网 络 与 前 馈 神 经 网 络 相 
比 有 什么 特点 ? 


难度 ， 友 六 六 六 六 
分 析 与 解答 


刚才 提 人 到， 传统 文本 处 理 任 务 的 方法 中 一 般 将 TF-IDF 同 量 作为 特 
征 输入 。 显 而 易 见 ， 这 样 的 表示 实际 上 丢失 了 输入 的 文本 序列 中 每 个 
单词 的 顺序 。 在 神经 网 络 的 建 模 过 程 中 ， 一 般 的 前 馈 神 经 网 络 ， 如 卷 
积 神经 网 络 ， 通 常 接受 一 个 定 长 的 癌 量 作 为 输入 。 卷 积 神经 网 络 对 文 
本 数据 建 模 时 ， 输 入 变 长 的 字符 串 或 者 单词 日 ， 然 后 通过 滑动 窗口 加 
池 化 的 方式 将 原先 的 输入 转换 成 一 个 固定 长 度 的 癌 量 表示 ， 这 样 做 可 


以 捕捉 到 原文 本 中 的 一 些 局 部 特征 ， 但 是 两 个 单词 之 间 的 长 距离 依赖 
关系 还 是 很 难 被 学 习 到 。 


循环 神经 网 络 却 能 很 好 地 处 理 文本 数据 变 长 并 且 有 序 的 输入 序 
列 。 它 模拟 了 人 阅读 一 篇 文章 的 顺序 ， 从 前 到 后 阅读 文章 中 的 每 一 个 
单词 ， 将 前 面 阅读 到 的 有 用 信息 编码 到 状态 变量 中 去 ， 从 而 拥有 了 一 
定 的 记忆 能 力 ， 可 以 更 好 地 理解 之 后 的 文本 。 图 10.1 展 示 了 一 个 典型 
的 循环 神经 网 络 结构 2 。 


图 10.1 循环 神经 网 络 结构 


由 图 可 见 ， 一 个 长 度 为 T 的 序列 用 循环 神经 网 络 建 模 ， 展 开 之 后 
可 以 看 作 是 一 个 T 层 的 前 馈 神 经 网 络 。 其 中 ， 第 t 层 的 隐 舍 状态 hi 编码 
了 序列 中 前 t 个 输入 的 信息 ， 可 以 通过 当前 的 输入 xx 和 上 一 层 神 经 网 络 
的 状态 hi_1 计 算得 到 ， 最 后 一 层 的 状态 hi 编码 了 整个 序列 的 信息 ， 因 此 
可 以 作为 整 篇 文档 的 压缩 表示 ， 以 此 为 基础 的 结构 可 以 应 用 于 多 种 具 
体 任务 。 例 如 ， 在 hy 后 面 直接 接 一 个 Softmax 层 ， 输 出 文本 所 属 类 别 的 
预测 概率 y， 束 可 以 实现 文本 分 类 。h. 和 y 的 计算 公式 为 


net;=Ux,+ Wh,_1 ， 
(10.1) 
h=f(net,) ， 
(10.2) 
y=g(Vhr) ， 


(10.3) 


EPPA ABTA KA, UKAE EIS RATES, WARE EM 
上 一 时 刻 到 下 一 时 刻 状 态 转 移 的 权重 和 矩阵。 在 文本 分 类 任务 中 ，f 可 以 
选取 Tanh 函 数 或 者 ReLU 函 数 ，g 可 以 采用 Softmax 函 数 。 


通过 最 小 化 损失 误差 ( 即 输出 的 y 与 真实 类 别 之 间 的 距离 ， 我 们 
可 以 不 断 训练 网 络 ， 使 得 得 到 的 循环 神经 网 络 可 以 准确 地 预测 文本 所 
属 的 类 别 ， 达 到 分 类 目的 。 相 比 于 卷 积 神经 网 络 等 前 饥 神 经 网 络 ， 循 
环 神 经 网 络 由 于 具备 对 序列 顺序 信息 的 刻画 能 力 ， 往 往 能 得 到 更 准确 
的 结果 。 


02 ”循环 神经 网 络 的 梯度 消失 问题 


场景 描述 


细 究 深度 学 习 的 发 展 历 史 ， 其 实 早 在 1989 年 ， 深 度 学 习 先 驱 Lecun 
束 已 经 提出 了 基于 反 疝 传播 算法 的 卷 积 神经 网 络 LeNet， 将 其 用 于 数 子 
识别 任务 ， 并 取得 了 民 好 的 效果 。 但 Lenet 在 当时 并 没有 取得 广泛 的 关 
注 与 重视 ， 也 少 有 人 接着 这 项 工作 继续 研究 ， 提 出 更 新 凑 、 突 出 的 模 
型 。 男 外 深度 神经 网 络 模 型 由 于 缺乏 严格 的 数学 理论 文 持 ， 在 20 世 纪 
80 年 代 未 ， 这 股 混 测 便 渐 渐 退 去 ， 走 同 平 淡 。 


1991 年 ， 深 度 学 习 的 发 展 达到 了 一 个 冰点 。 在 这 一 年 ， 反 问 传 播 
算法 被 指出 存在 梯度 消失 (Gradient Vanishing) 问题 ， 即 在 梯度 的 反 
器 传 播 过 程 中 ， 后 层 的 梯度 以 连 乘 方 式 熙 加 到 前 层 。 由 于 当时 神经 网 
络 中 的 激活 函数 一 般 都 使 用 Sigmoid 函 数 ， 而 它 具 有 饱和 特性 ， 在 输入 
达到 一 定 值 的 情况 下 ， 输 出 就 不 会 发 生 明 显 变 化 了 。 而 后 层 梯 度 本 来 
天 比 较 小 ， 误 差 梯度 反 传 到 前 层 时 几乎 会 嘉 减 为 0， 因 此 无 法 对 前 层 的 
参数 进行 有 歼 的 学 习 ， 这 个 问题 使 得 本 天 不 景气 的 深度 学 习 领 域 委 上 
加 霜 。 在 循环 神经 网 络 中 ， 是 否 同样 存在 梯度 消失 的 问题 呢 ? 


知识 ， LAAJ 
梯度 消失 ， 梯 度 爆炸 (Gradient Explosion) 


问题 循环 神经 网 络 为 什么 会 出 现 梯度 消失 或 梯度 爆炸 ? 
有 哪些 改进 方案 ? 


RE: kN 


分 析 与 解答 


循环 神经 网 络 模 型 的 求解 可 以 采用 BPTT (Back Propagation 
Through Time, ZETTAI ee) 算法 实现 ，BPTT 实 际 上 是 反 辐 
传播 算法 的 答 单 变种 。 如 采 将 循环 神经 网 络 按时 间 展 开 成 T 层 的 前 馈 
神经 网 络 来 理解 ， 瓯 和 普通 的 反 回 传播 算法 没有 什么 区 别 了 。 循 环 神 
经 网 络 的 设计 初衷 之 一 束 是 能 够 捕获 长 距离 输入 之 间 的 依赖 。 从 结构 
上 来 看 ， 循 环 神经 网 络 也 理应 能 够 做 到 这 一 点 。 然 而 实践 发 现 ， 使 用 
BPTT 算 法 学 习 的 循环 神经 网 络 并 不 能 成 功 捕捉 到 长 距离 的 依赖 关系 ， 
这 一 现象 主要 源 于 深度 神经 网 络 中 的 梯度 消失 。 传 统 的 循环 神经 网 络 
梯度 可 以 表示 成 连 乘 的 形式 


Onet, _ Onet, : Onet, __ Onet, 


Onet, E Onet,, Onet, Onet | 


(10.4) 
其 中 
net=UxXi+WWA 1 

(10.5) 
h=f(net,) ， 

(10.6) 
y=g(Vh) ， 

(10.7) 


Onet, _ Onet, Oh, 


=W -diag| "(net 
Onet,, 01 Onet, aL f"(ner,.)] 


wi f'(net_,) * Wpf (neti) 
Wf (net,.) “R Wnf (net?) 


(10.8) 


Onet, 
En Aha a eh, HVE (BURR RTCA), neta 对 应 的 nxn 维 
FERE, SUBCRR ATE n] EERE o 


由 于 预测 的 误差 是 沿 着 神经 网 络 的 每 一 层 反 向 传播 的 ， 因 此 当 雅 
克 比 和 矩阵 的 最 大 特征 值 大 于 1 时 ， 随 着 离 输出 越 来 越 远 ， 每 层 的 梯度 大 
小 会 呈 指 数 增长 ， 导 人 致 梯度 爆炸 ， 反 之 ， 若 雅 元 比 矩 阵 的 最 大 特征 值 
小 于 1， 梯 度 的 大 小 会 呈 指 数 缩小 ， 产 生 梯 度 消失 。 对 于 普通 的 前 馈 网 
络 来 说 ， 梯 度 消 失意 味 着 无 法 通过 加 深 网 络 层次 来 改善 神经 网 络 的 预 
测 效 果 ， 因 为 无 论 如 何 加 深 网 络 ， 只 有 靠近 输出 的 若干 层 才 真正 起 到 
Be ee 。 这 使 得 循环 神经 网 络 模 型 很 难 学 习 到 输入 序列 中 的 长 距 
AKRA ° 


梯度 爆炸 的 问题 可 以 通过 梯度 裁剪 来 缓解 ， 即 当 梯 度 的 范式 大 于 
某 个 给 定 值 时 ， 对 梯度 进行 等 比 收缩 。 而 梯度 消失 问题 相对 比较 杰 
手 ， 需 要 对 模型 本 身 进行 改进 。 深 度 残 差 网 络 是 对 前 馈 神 经 网 络 的 改 
进 ， 通 过 残 差 学 习 的 方式 缓解 了 梯度 消失 的 现象 ， 从 而 使 得 我 们 能 够 
学 习 到 更 深层 的 网 络 表示 ; 而 对 于 循环 神经 网 络 来 说 ， 长 短 时 记忆 模 
型 231 及 其 变种 门 探 循环 单元 (Gated recurrent unit, GRU) [4 等 模型 
通过 加 入 门 控 机 制 ， 很 大 程度 上 弥补 了 梯度 消失 所 带 来 的 损失 。 


03 ”循环 神 经 网 络 中 的 激活 函数 


场景 描述 


我 们 知道 ， 在 卷 积 神经 网 络 等 前 馈 神 经 网 络 中 采用 ReLU 激 活 函 数 
通 利 可 以 有 效 地 改善 梯度 消失 ， 取 得 更 快 的 收敛 速度 和 更 好 的 收敛 结 
条 。 那 么 在 循环 神经 网 络 中 可 以 使 用 ReLU 作 为 每 层 神经 元 的 激活 函数 
15? 


知识 点 
ReLU， 循 环 神经 网 络 ， 激 活 函 数 


问题 ”在 循环 神经 网 络 中 能 否 使 用 ReLU 作 为 激活 画 数 ? 


MEE: tokyo 


分 析 与 解答 


答案 是 肯定 的 ， 但 是 需 要 对 和 抢 阵 的 初 值 做 一 定 限 制 ， 否 则 十 分 容 
易 引 发 数值 问题 。 为 了 解释 这 个 问题 ， 让 我 们 回顾 一 下 循环 神经 网 络 
的 前 问 传 播 公式 


(10.9) 


h=f(net,) 


(10.10) 
ARGH BU SFR SUA] Bee, P A 
net, = Ux, +Wh,_, = Ux, +Wf(Ux,_, +Wh,_,) 
(10.11) 


如 果 采 用 ReLU 替 代 公 式 中 的 激活 函数 [/， 并 且 假 设 ReLU 函 数 一 直 
处 于 激活 区 域 ( 即 输入 大 于 0) ， 则 有 f, 
net, = Ux, +W (Ux, +WWh_,)。 继 续 将 其 展开 ，net 的 表达 式 中 最 终 包 含 t 
个 W 连 乘 。 如 果 W 不 是 单位 矩阵 (对 角 线 上 的 元 素 为 1， 其 余 元 素 为 0 
HIERE)  ， 最 终 的 结果 将 会 趋 于 0 或 者 无 穷 ， 引 发 严重 的 数值 问题 。 那 
么 为 什么 在 卷 积 神经 网 络 中 不 会 出 现 这 样 的 现象 呢 ? 这 是 因为 在 卷 积 
神经 网 络 中 每 一 层 的 权重 矩阵 W 是 不 同 的 ， 并 且 在 初始 化 时 它们 是 独 
a AC AT AE SR, EB ZR RAS BE BL 

问题 。 


再 回 到 循环 神经 网 络 的 梯度 计算 公式 


Onet, 


=W edia ‘(net 
ant, g[f (ne | 


ite aes aa 


Wf '(net,) gii W „f (net? ,) 


(10.12) 
假设 采用 ReLU 激活 函数 ， 且 一 开始 所 有 的 入 经 苑 部 外 于 微薄 中 
net 
Pasha OO t r 
( 即 输入 大 于 0) ， 则 diag[ 了 (net, i)] 为 单位 矩阵 ， 有 net ° 在 梯 


Onet, _ 


度 传递 经 历 了 n 层 之 后 ，Bnei 。”。 可 以 看 到 ， 即 使 采用 了 ReLU 激 活 
画 数 ， 只 要 W 不 是 单位 矩阵 ， 梯 度 还 是 会 出 现 消 失 或 者 爆炸 的 现象 。 


综 上 所 述 ， 当 采用 ReLU 作 为 循环 神经 网 络 中 隐 含 层 的 激活 函数 
时 ， 只 有 当 W 的 取 值 在 单位 矩阵 附近 时 才能 取得 比较 好 的 效果 ， 因 此 
需要 将 W 初 始 化 为 单位 矩阵 。 实 验证 明 ， 初 始 化 W 为 单位 矩阵 并 使 用 
ReLU 激 活 画 数 在 一 些 应 用 中 取得 了 与 长 短期 记忆 模型 相似 的 结 末 ， 并 
且 学 习 速 度 比 长 短期 记忆 模型 更 快 ， 是 一 个 值得 尝试 的 小 技巧 3 。 


04 ”长 短期 记忆 网 络 


场景 描述 


长 短期 记忆 网 络 (Long Short Term Memory, LSTM) 是 循环 神经 
网 络 的 最 知名 和 成 功 的 扩展 。 由 于 循环 神经 网 络 有 梯度 消失 和 梯度 爆 
炸 的 问题 ， 学 习 能 力 有 限 ， 在 实际 任务 中 的 效果 往往 达 不 到 预期 效 
果 。LSTM 可 以 对 有 价值 的 信息 进行 长 期 记忆 ， 从 而 减 小 循环 神经 网 
络 的 学 习 难 度 ， 因 此 在 语音 识别 、 语 言 建 模 、 机 器 翻译 、 命 名 实体 识 
别 、 图 像 描述 文本 生成 等 问题 中 有 着 广泛 应 用 。 


知识 点 
LSTM, J, BORA, WHIEW NR, SigmoidE ey 


问题 1 LSTM 是 如 何 实现 长 短期 记忆 功能 的 ? 


IERE: AAA 
分 析 与 解答 


有 图 有 真相 ， 我 们 首先 结合 LSTM 结 构图 以 及 更 新 的 计算 公式 探 
讨 这 种 网 络 如 何 实 现 其 功能 ， 如 图 10.2 所 示 。 


图 10.2 ”长 短 时 记忆 模型 内 部 结构 示意 


与 传统 的 循环 神经 网 络 相 比 ，LSTM 仍 然 是 基于 x, 和 h_j 来 计算 
太 ， 只 不 过 对 内 部 的 结构 进行 了 更 加 精心 的 设计 ， 加 入 了 输入 门 )、 遗 
球门 f 以 及 输出 门 oj 三 个 门 和 一 个 内 部 记忆 单元 c。 输 入门 控制 当前 计 
算 的 新 状态 以 多 大 程度 更 新 到 记忆 单元 中 ; 遗忘 门 控 制 前 一 步 记忆 单 
元 中 的 信息 有 多 大 程度 被 遗 坪 掉 ; 输出 门 控制 当前 的 输出 有 多 大 程度 
上 取决 于 当前 的 记忆 单元 。 


经 典 的 LSTM 中 ， 第 t 步 的 更 新 计算 公式 为 


i=o( Wixet Uihe_1+b;) ， 


(10.13) 
f(W Ut 1+bn) ， 

(10.14) 
0,=0(W,x,+U,h,- +b.) ， 

(10.15) 


C=Tanh(W x+Uh 1) ， 


(10.16) 


C=f,Oc;- +iOG , 

(10.17) 
h=o,0Tanh(c,) . 

(10.18) 


其 中 ii 是 通过 输入 aa 和 上 一 步 的 隐 含 层 输 出 凡 7 进 行 线性 变换 ， 再 
经 过 激活 函数 o 得 到 的 。 输 入 门 i 的 结果 是 向 量 ， 其 中 每 个 元 素 是 0 到 1 
之 间 的 实数 ， 用 于 控制 各 维度 流 过 浆 门 的 信息 量 ，Wi、Ui 两 个 矩阵 和 
癌 量 bj; 为 输入 门 的 参数 ， 是 在 训练 过 程 中 需要 学 习 得 到 的 。 遗 起 门 f 和 
输出 | ol 的 计算 方式 与 输入 门类 似 ， 它 们 有 各 目的 参数 W、U 和 b。 与 
传统 的 循环 神经 网 络 不 同 的 是 ， 从 上 一 个 记忆 单元 的 状态 co- 到 当前 的 
状态 ct 的 转移 不 一 定 完全 取决 于 激活 函数 计算 得 到 的 状态 ， 还 由 输入 
TAM RR Ta ell o 


在 一 个 训练 好 的 网 络 中 ， 当 输入 的 序列 中 没有 重要 信息 时 ， 
LSTM 的 遗 乐 门 的 值 接 近 于 1， 输 入 门 的 值 搁 近 于 0， 此 时 过 去 的 记忆 
会 被 傈 存 ， 从 而 实现 了 长 期 记忆 功能 ;， 当 输入 的 序列 中 出 现 了 重要 的 
信息 时 ，LSTM 应 当 把 其 存 入 记忆 中 ， 此 时 其 输入 门 的 值 会 接近 于 1; 
当 输入 的 序列 中 出 现 了 重要 信息 ， 且 该 信息 意味 着 之 前 的 记忆 不 再 重 
要 时 ， 输 入 门 的 值 接近 1， 而 遗 起 门 的 值 接近 于 0， 这 样 旧 的 记忆 被 遗 
迄 ， 新 的 重要 信息 被 记忆 。 经 过 这 样 的 设计 ， 束 个 网 络 更 容易 学 习 到 


序列 之 间 的 长 期 依赖 。 


问题 LSTM 里 各 模块 分 别 使 用 什么 激活 画 数 ， 可 以 使 用 
别 的 激活 函数 吗 ? 


MEE: tok key 


分 析 与 解答 


关于 激活 函数 的 选取 ， 在 LSTM 中 ， 遗 忘 门 、 输 入 门 和 输出 门 使 
用 Sigmoid 函 数 作为 激活 函数 ; 在 生成 候选 记忆 时 ， 使 用 双 曲 正切 函数 
Tanh 作 为 激活 函数 。 值 得 注意 的 是 ， 这 两 个 激活 函数 都 古 饮 和 的 ， 也 
忠 古 说 在 输入 达到 一 定 值 的 情况 下 ， 输 出 束 不 会 发 生 明 显 变化 了 。 如 
果 是 用 非 饱和 的 激活 函数 ， 例 如 ReLU， 那 么 将 难以 实现 门 探 的 效果 。 
Sigmoid 函 数 的 输出 在 0~1 之 间 ， 符 合 门 探 的 物理 定义 。 且 当 输入 较 大 
或 较 小 时 ， 其 输出 会 非常 接近 1 或 0， 从 而 保证 该 门 开 或 关 。 在 生成 候 
选 记忆 时 ， 使 用 Tanh 函 数 ， 有 是 因为 其 输出 在 -1~1 之 间 ， 这 与 大 多 数 
场景 下 特征 分 布 是 0 中 心 的 吻合 。 此 外 ，Tanh 画 数 在 输入 为 0 附近 相 比 
Sigmoid 了 芳 数 有 更 大 的 梯度 ， 通 向 使 模型 收 化 更 快 。 


激活 函数 的 选择 也 不 是 一 成 不 变 的 。 例 如 在 原始 的 LSTM 中 ， 使 
用 的 激活 了 芳 数 是 Sigmoid 函数 的 变种 ， h(x)=2sigmoid(x)-1 , 
g(x)=4sigmoid(x)-2, iPS HALA EB op Bl [-1,1] FO [-2,2] o FF AE 
FRUSHIILSTM#, RAAT IAT), eA], HP aA Zit 
输入 门 后 是 直接 与 记忆 相 加 的 ， 所 以 输入 门 控 g(x) 的 值 是 0 中 心 的 。 后 
来 经 过 大 量 的 研究 和 实验 ， 人 们 发 现 增加 遗忘 门 对 LSTM 的 性 能 有 很 
大 的 提升 RP， 并 且 h(x) 使 用 Tanh 比 2*sigmoid(x)-1 要 好 ， 所 以 现代 的 
LSTM 采 用 Sigmoid 和 Tanh 作 为 激活 函数 。 事 实 上 在 门 控 中 ， 使 用 
Sigmoid 函 数 是 几乎 所 有 现代 神经 网 络 模块 的 共同 选择 。 例 如 在 门 控 循 
环 单元 和 注意 力 机 制 中 ， 也 广泛 使 用 Sigmoid 函 数 作 为 门 探 的 激活 画 
数 。 

此 外 ， 在 一 些 对 计算 能 力 有 限制 的 设备 ， 诸 如 可 穿戴 设备 中 ， 由 
于 Sigmoid 函 数 求 指数 需要 一 定 的 计算 量 ， 此 时 会 使 用 001 门 (hard 
gate) 让 门 控 输 出 为 0 或 1 的 离散 值 ， 即 当 输入 小 于 靖 值 时 ， 门 控 输 出 
为 0， 当 输入 大 于 阔 值 时 ， 输 出 为 1。 从 而 在 性 能 下 降 不 显著 的 情况 
下 ， 减 小 计算 量 。 经 典 的 LSTM 在 计算 各 门 控 时 ， 通 常 使 用 输入 x, 和 隐 
层 输 出 h_j 参 与 门 控 计算 ， 例 如 对 于 输入 门 的 更 新 : i =oWx+Uih +4) 
° 其 最 常见 的 变种 是 加 入 了 完了 筷 机 制 R4， 让 记忆 c_j 也 参与 到 了 门 控 
的 计算 中 ， 此 时 输入 门 的 更 新 方式 变 为 


i, =o(Wx, +U,h +Vc 


t 


4+). 


(10.19) 


总 而 言 之 ，LSTM 经 历 了 20 年 的 发 展 ， 其 核心 思想 一 脉 相 承 ， 但 
各 个 组 件 都 发 生 了 很 多 演化 。 了 解 其 发 展 历程 和 常见 变种 ， 可 以 让 我 
们 在 实际 工作 和 研究 中 ， 结 合 问题 选择 最 佳 的 LSTM 模 块 ， 灵 活 地 思 
考 ， 并 知 其 所 以 然 ， 而 不 是 死 背 各 种 网 络 的 结构 和 公式 。 


05 Seq2Seqt 2! 


场景 描述 


Sedq2Seq， 全 称 Sequence to Sequence 模 型 ， 目 前 还 没有 一 个 很 好 的 
中 文 翻 译 ， 我 们 暂且 称 之 为 序列 到 序列 模型 。 大 致意 思 是 将 一 个 序列 
信和 号， 通过 编码 和 解码 生成 一 个 新 的 序列 信号 ， 通 常用 于 机 器 翻译 、 
语音 识别 、 自 动 对 话 等 任务 。 在 Seq2Seq 模 型 提出 之 前 ， 深 度 神经 网 络 
在 图 像 分 类 等 问题 上 取得 了 非常 好 的 效果 。 在 深度 学 习 擅 长 的 问题 
中 ， 输 入 和 输出 通常 都 可 以 表示 为 固定 长 度 的 向量 ， 如 果 长 度 稍 有 变 
化 ， 会 使 用 补 零 等 操作 。 然 而 像 前 面 提 到 的 几 个 问题 ， 其 序列 长 度 事 
和 完 并 不 知道 。 因 此 如 何 突 破 先 前 深度 神经 网 络 的 局 限 ， 使 其 适应 于 更 
多 的 场景 ， 成 了 2013 年 以 来 的 研究 热点 ，Seq2Seq 模 型 也 应 运 而 生 。 


知识 点 
Seq2Seq， 机 器 翻译 ， 集 束 搜索 (Beam Search) 


问题 1 什么 是 Seq2Seq 模 型 ? Seq2Seq 模 型 有 哪些 优点 ? 


RE: kN 


分 析 与 解答 


Seq2Seq 模 型 的 核心 思想 是 ， 通 过 深度 神经 网 络 将 一 个 作为 输入 的 
序列 映射 为 一 个 作为 输出 的 序列 ， 这 一 过 程 由 编码 输入 与 解码 输出 两 
个 环 市 构成 。 在 经 典 的 实现 中 ， 编 码 絮 和 解码 右 各 由 一 个 循环 神经 网 


络 构成 ， 既 可 以 选择 传统 循环 神经 网 络 结构 ， 也 可 以 使 用 长 短期 记忆 
模型 、 门 ] 控 循环 单元 等 。 在 Sedq2Seq 模 型 中 ， 两 个 循环 神经 网 络 是 共同 
训练 的 。 


假想 一 个 复习 和 考试 的 场景 ， 如 图 10.3 所 示 。 我 们 将 学 到 的 历史 
信息 经 过 了 一 系列 加 工整 理 ， 形 成 了 所 请 的 知识 体系 ， 这 便 是 编码 过 
程 。 然 后 在 考试 的 时 候 ， 将 高 度 抽象 的 知识 应 用 到 系列 问题 中 进行 求 
解 ， 这 便 是 解码 过 程 。 辟 如 对 于 学 霸 ， 他 们 的 网 络 很 强大 ， 可 以 对 很 
长 的 信息 进行 抽象 理解 ， 加 工 内 化 成 编码 回 量 ， 再 在 考试 的 时 候 从 容 
应 管 一 系列 问题 。 而 对 于 大 多 数 普 通 人 ， 很 难 记忆 长 距离 、 长 时 间 的 
言 轧 。 在 考 前 只 好 临时 抱佛脚 ， 编 码 很 短期 的 序列 信号 ， 考 试 时 也 是 
听天由命 ， 能 答 多 少 写 多 少 ， 解 码 出 很 短 时 效 的 信息 。 


解码 文本 


输入 文本 


图 10.3 ”循环 神经 网 络 编 解码 结构 图 


对 应 于 机 器 翻译 过 程 ， 如 图 10.4 所 示 。 输 入 的 序列 是 一 个 源 语言 
的 句子 ， 有 三 个 单词 A、B、C， 编 码 器 依次 恋 入 A、B、C 和 结尾 符 
<EOS>。 在 解码 的 第 一 步 ， 解 码 器 读 入 编码 絮 的 最 终 状 态 ， 生 成 第 一 
个 目标 语言 的 词 W; 第 二 步 读 入 第 一 步 的 输出 W， 生 成 第 二 个 词 X; 
如 此 循环 ， 直 至 输出 结尾 符 <EOS>。 输 出 的 序列 W、X、Y、Z 就 是 翻 
译 后 目标 语言 的 句子 。 


TEMA EES, BAW Wek IT BOE, BMA we 
摘要 短 句 。 在 图 像 描 述 文 本 生成 任务 中 ， 输 入 是 图 像 经 过 视觉 网 络 的 
特征， 输出 的 序列 是 独 像 的 描述 短 句 。 进 行 语音 识别 时 ， 输 入 的 序列 
征 音 频 信号 ， 和 输出 的 序列 是 识别 出 的 文本 。 不 同 场景 中 ， 编 码 右 和 解 
码 器 有 不 同 的 设计 ， 但 对 应 Seq2Seq 的 底层 二 结构 却 如 出 一 辐 。 


<EOS> 


下 中 中 中 中 四 中 


<EOS> 


图 10.4 ”机 器 翻译 模型 结构 示意 图 


问题 Seq2Seq 模 型 在 解码 时 ， 有 哪些 常用 的 办 法 ? 


难度 ， 克 交友 六 交 
分 析 与 解答 


Seq2Seq 模 型 最 核心 的 部 分 是 其 解码 部 分 ， 大 量 的 改进 也 是 在 解码 
环节 衍生 的 。Seq2Seq 模 型 最 基础 的 解码 方法 是 贪心 法 ， 即 选取 一 种 度 
量 标准 后 ， en 个 结果 ， 直 到 结束 。 贪 
心 法 的 计算 代价 低 ， 适 合作 为 基准 结果 与 其 他 方法 相 比较 。 很 显然 ， 
贪心 法 获得 的 是 R 由 于 实际 问题 的 复杂 性 ， 该 方法 往 
往 并 不 能 取得 最 好 的 效果 。 


集束 搜索 是 常见 的 改进 算法 ， 它 古 一 种 启发 式 算 法 。 该 方法 会 保 
存 beam size (后 面 简写 为 b) 个 当前 的 较 佳 选择 ， 然 后 解码 时 每 一 步 根 
据 保 存 的 选择 进行 下 一 步 扩展 和 排序 ， 接 着 选择 前 b 个 进行 保存 ， 循 环 
迭代 ， 直 到 结束 时 选择 最 佳 的 一 个 作为 解码 的 结果 。 图 10.5 是 2 为 2 时 
的 集束 搜索 示例 。 


两 个 候选 序列 经 过 扩展 的 候选 序列 两 个 新 的 候选 序列 


图 10.5 “集束 搜索 示例 


由 图 可 见 ， 当 前 已 经 有 解码 得 到 的 第 一 个 词 的 两 个 候选 : I 和 
My 。 然 后 ， 将 1 和 My 输入 到 解码 器 ， 得 到 一 系列 候选 的 序列 ， 诸 如 1 
decided ` My decision、Ithought 等 。 最 后 ， 从 后 续 序 列 中 选择 最 优 的 
两 个 ， 作 为 前 两 个 词 的 两 个 候选 序列 。 很 显然 ， 如 果 b 取 1， 那 么 会 退 
化 为 前 述 的 信心 法 。 随 着 b 的 增 大 ， 其 搜索 的 空间 增 大 ， 最 终 效 采 会 有 
所 提升 ， 但 需要 的 计算 量 也 相应 增 大 。 在 实际 的 应 用 〈 如 机 器 翻译 、 
文本 摘要 ) 中 ，b 往 往 会 选择 一 个 适中 的 范围 ， 以 8~12 为 佳 。 


解码 时 使 用 堆 琶 的 RNN、 增 加 Dropout 机 制 、 与 编码 咒 之 间 建 立 残 
关连 接 等 ， 均 征 音 见 的 改进 措施 。 在 实际 研究 工作 中 ， 可 以 依据 不 同 
使 用 场景 ， 有 针对 地 进行 选择 和 实践 。 


另外 ， 解 码 环 世 中 一 个 重要 的 改进 是 注意 力 机 制 ， 我 们 会 在 下 一 
节 深 入 介绍 。 注 意 力 机 制 的 引入 ， 使 得 在 解码 时 每 一 步 可 以 有 和 针对 性 
地 关注 与 当前 有 关 的 编码 结果 ， 从 而 减 小 编码 右 输 出 表示 的 学 习 难 
度 ， 也 更 容易 学 到 长 期 的 依赖 关系。 此 外 ， 解 码 时 还 可 以 采用 记忆 网 
络 28 等 ， 从 外 界 获 取 知 识 。 


06 注意 力 机 制 


场景 描述 


无 论 机 屁 学 习 、 深 度 学 习 还 是 人 工 智能 ， 我 们 似乎 都 在 寻找 一 种 
可 以 模拟 人 脑 的 机 制 ， 注 意 力 机 制 (Attention Mechanism) 实际 上 也 
是 源 于 类 似 的 思路 。 研 究 发 现 ， 人 脑 在 工作 时 是 有 一 定 注意 力 的 。 比 
如 当 我 们 欣赏 一 幅 艺 术 作品 时 ， 可 以 看 到 其 全 貌 。 而 当 我 们 深入 关注 
画作 的 细 世 时， 其 实 眼睛 只 聚焦 在 了 画幅 上 很 小 的 一 部 分 ， 而 忽略 了 
其 他 位 置 的 诸如 育 景 等 信息 ， 这 说 明 大 脑 在 处 理 信 号 时 是 有 一 定 权 重 
划分 的 ， 而 注意 力 机 制 的 提出 正 是 模仿 了 大 脑 的 这 种 核心 特性 。 


知识 点 
注意 力 机 制 ，Seq2Seq， 循 环 神经 网 络 


问题 ”Seq2Seq 模 型 引入 注意 力 机 制 是 为 了 解决 什么 问 
题 ? 为 什么 选用 了 双向 的 循环 神经 网 络 模型 ? 


难度 :， 女 女 女 女 广 
分 析 与 解答 


在 实际 任务 (例如 机 器 翻译 ) 中 ， 使 用 Seq2Seq 模 型 ， 通 常会 先 使 
用 一 个 循环 神经 网 络 作为 编码 器 ， 将 输入 序列 ( 源 语言 句子 的 词 向 量 
序列 ) 编码 成 为 一 个 向 量 表示 ; 然后 再 使 用 一 个 循环 神经 网 络 模型 作 


为 解码 器 ， 从 编码 器 得 到 的 向 量 表示 里 解码 得 到 输出 序列 (目标 语言 
句子 的 词 序列 ) 。 


在 Seq2Seq 模 型 中 〈 见 图 10.6) ， 当 前 隐 状 态 以 及 上 一 个 输出 词 决 
定 了 当前 输出 词 ， 即 


S; = f Wisi), 
(10.20) 
PUY; | Vio Y2- Via) = 84>5;) 
(10.21) 


其 中 fflg 是 非 线性 变换 ， 通 常 是 多 层 神经 网 络 ，yi 是 输出 序列 中 的 一 个 
词 ，s 征 对 应 的 隐 状 态 。 
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图 10.6 ”序列 到 序列 模型 结构 示意 图 


在 实际 使 用 中 ， 会 发 现 随 大 输 入 序列 的 增长 ， 模 型 的 性 能 发 生 了 
显 普 下 降 。 这 是 因为 编码 时 输入 序列 的 全 部 信息 压缩 到 了 一 个 癌 量 表 
示 中 。 随 着 序列 增长 ， 句 子 越前 面 的 词 的 信息 丢失 就 越 闫 重 。 试 想 翻 
译 一 个 有 100 个 词 的 句子 ， 需 要 将 整个 句子 全 部 词 的 语义 信息 编码 在 一 
个 向 量 中 。 而 在 解码 时 ， 目 标语 言 的 第 一 个 词 大 概率 是 和 源 语 言 的 第 
一 个 词 相对 应 的 ， 这 束 意 味 着 第 一 步 的 解码 忠 需 要 考虑 100 步 之 前 的 信 
思 。 建 模 时 的 一 个 小 技巧 是 将 源 语 言 句 子 诸 序 输入 ， 或 者 重复 输入 两 
HAVA, ， 以 得 到 一 定 的 性 能 提升 。 使 用 长 短期 记忆 模型 能 够 在 
一 定 程度 上 缓解 这 个 问题 ， 但 在 实践 中 对 于 过 长 的 序列 仍然 难以 有 很 
好 的 表现 。 同 时 ，Seq2Seq 模 型 的 输出 序列 中 ， 营 第 会 损失 部 分 输入 序 
列 的 信息 ， 这 十 因为 在 解码 时 ， 当 前 词 及 对 应 的 源 语 言词 的 上 下 文 信 
思 和 位 置信 息 在 编 解 码 过 程 中 丢失 了 。 


Seq2Sed 模 型 中 引入 注意 力 机 制 惑 是 为 了 解决 上 述 的 问题 。 在 注意 
力 机 制 中 ， 仍 然 可 以 用 普通 的 循环 神经 网 络 对 输入 序列 进行 编码 ， 得 
到 隐 状 态 hi,hz...hr。 但 是 在 解码 时 ， 每 一 个 输出 词 都 依赖 于 前 一 个 隐 
状态 以 及 输入 序列 每 一 个 对 应 的 隐 状 态 


Si = f (S45 i101), 


(10.22) 
PQ | Vio Yas Via) = ZSG), 
(10.23) 
EB SSI) EEA IERES h] ho... hp HI — PAA 
T 
c = Sah, 

j=1 

(10.24) 


其 中 注意 力 权 重 参数 aj 并 不 是 一 个 固定 权重 ， 而 是 由 男 一 个 神经 网 络 
计算 得 到 
_ exp(é;) 
> exp(e;) 
k=l , 


(10.25) 
e; =a(s; 1,h;) 


(10.26) 


神经 网 络 o 将 上 一 个 输出 序列 隐 状 态 s_; 和 输入 序列 隐 状 态 刀 作为 
输入 ， 计 算出 一 个 x，y 对 齐 的 值 e;， 再 归 一 化 得 到 权重 a 。 


我 们 可 以 对 此 给 出 一 个 直观 的 理解 : 在 生成 一 个 输出 词 时 ， 会 考 
虑 每 一 个 输入 词 和 当前 输出 词 的 对 齐 关 系 ， 对 齐 越 好 的 词 ， 会 有 越 大 
的 权重 ， 对 生成 当前 输出 词 的 影响 也 束 越 大 。 图 10.7 展 示 了 翻译 时 注 
意 力 机 制 的 权重 分 布 ， 在 互 为 翻译 的 词 对 上 会 有 最 大 的 权重 231 。 
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图 10.7 ”注意 力 机 制 的 权重 分 布 


在 机 器 翻译 这 样 一 个 典型 的 Seq2Seq 模 型 里 ， 生 成 一 个 输出 词 y， 
会 用 到 第 i 个 输入 词 对 应 的 隐 状 态 廊 以 及 对 应 的 注意 力 权重 oj。 如 果 只 
使 用 一 个 方向 的 循环 神经 网 络 来 计算 隐 状 态 ， 那 么 态 只 包含 了 xp 到 xi 的 
信息 ， 相 当 于 在 qj; 这 里 丢失 了 x 后 面 的 词 的 信息 。 而 使 用 双 癌 循环 神 
经 网 络 进 行 建 模 ， 第 i 企 输入 词 对 应 的 隐 状 态 包含 了 大 和 太 ， 前 者 编码 xy 
到 x 的 信息 ， 后 者 编码 x% 及 之 后 所 有 词 的 信息 ， 防 止 了 前 后 文 信息 的 丢 
失 ， 如 图 10.8 所 示 。 
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图 10.8 双向 循环 神经 网 络 的 注意 力 机 制 模型 
注意 力 机 制 是 一 种 思想 ， 可 以 有 多 种 不 同 的 实现 方式 ， 在 Seq2Seq 
模型 以 外 的 场景 也 有 不 少 应 用 。 图 10.9 展 示 了 在 图 像 描述 文本 生成 任 


务 中 的 结果 ， 可 以 看 到 在 生成 对 应 词 时 ， 图 片上 对 应 物体 的 部 分 有 较 
大 的 注意 力 权重 B0 。 


A little girl sitting on a bed with a teddy bear. 


图 10.9 注意 力 机 制 在 图 片 描 述 文 本 生成 中 的 应 用 


Bengio L365 


很 多 人 或 许 都 听 说 过 约 书 亚 .本 吉 奥 (Yoshua Bengio) ， 他 作为 深度 学 习 三 区 马车 
之 一 ， 参 与 编撰 了 两 本 《深度 学 习 》 图 书 。 本 吉 奥 有 许多 重要 的 工作 ， 例 如 门 控 循 环 单 
元 、 注 意 力 机 制 ， 和 近来 火爆 的 生成 对 抗 网 络 等 。 近 来 ， 人 工 智能 领域 的 顶级 会 议 ， 
NIPS 2017 (神经 信息 处 理 系统 大 会 ) 宣布 将 由 萨 米 . 本 吉 奥 担任 组 委 会 执行 主席 。 由 于 
本 吉 奥 是 一 个 非常 少见 的 姓氏 ， 和 那么 萨 米 . 本 吉 奥 究竟 是 约 书 亚 : 本 吉 奥 的 别名 ， 还 是 父 
子 或 者 兄弟 ， 或 者 没有 关系 呢 ? 

顺 着 八卦 之 路 ， 萨 米 . 本 吉 奥 的 信息 如 下 : 他 是 谷歌 的 研究 科学 家 ， 在 蒙特 利 尔 大 
学 获得 博士 学 位 ， 并 在 那里 进行 了 博士 后 研究 。 显 然 他 和 约 书 亚 :本 吉 奥 不 是 同一 个 
人 ， 但 巧合 的 是 ， 约 书 亚 : 本 吉 奥 就 是 蒙特 利 尔 大 学 的 教授 呀 。 打 开 约 书 亚 - 本 吉 奥 教授 
的 学 生 介绍 页 面 ， 陕 米 . 本 吉 奥 在 博士 后 期 间 ， 曾 得 到 他 的 指导 。 


图 10.10 是 本 吉 奥 兄弟 的 合影 。 


ha 


图 10.10 ”围观 群众 与 本 吉 奥 兄弟 的 合影 
约 书 亚 : 本 吉 奥 〈 左 一 ) APRA (A—) 长 得 非常 像 ， 年 纪 接 近 ， 显 然 是 
同胞 兄弟 。 看 年 纪 ， 约 书 亚 应 该 是 萨 米 的 哥哥 。 见 弟 同 为 深度 学 习 领 域 资深 的 科学 家 ， 
也 成 就 了 一 番 佳 话 。 


BUE HFA 


强化 学 习 近 年 来 在 机 万 学 习 领 域 越 来 越 火 ， 也 受到 了 越 来 越 多 人 
的 关注 。 强 化 学 习 是 一 个 20 世 纪 80 年 代 兴 起 的 ， 受 行为 心理 学 局 发 而 
来 的 一 个 机 絮 学 习 领 域 ， 它 关注 映 处 某 个 环境 中 的 决策 器 通过 采取 行 
动 获得 最 大 化 的 素 积 收益 。 和 传统 的 监督 学 习 不 同 ， 在 强化 学 习 中 ， 
并 不 直接 给 决策 右 的 输出 打分 。 相 反 ， 决 策 右 只 能 得 到 一 个 间接 的 肥 
局 ， 而 无 法 获得 一 个 正确 的 输入 /输出 对 ， 因 此 需要 在 不 断 的 竹 试 中 优 
化 目 己 的 策略 以 获得 更 高 的 收益 。 从 广义 上 说 ， 大 部 分 涉及 动态 系统 
的 决策 学 习 过 程 都 可 以 看 成 是 一 种 强化 学 习 。 强 化 学 习 的 应 用 非常 广 
泛 ,， 包 括 博 弈 论 、 欣 制 论 、 优 化 等 多 个 不 同 领域 。 这 两 年 ，AlphaGo 
及 其 升级 厂 横 空 出 世 ， 彻 展 改 变 了 围棋 这 一 古老 的 竞技 领域 ， 在 业界 
引起 很 大 震惊 ， 其 核心 技术 融 是 强化 学 习 。 与 未 来 科技 发 展 密切 相关 
的 机 右 人 领域 ， 从 机 大 人 行走 、 运 动 控 制 ， 到 目 动 当 驶 ， 都 是 强化 学 
习 的 用 武之 地 。 


01 强化 学 习 基础 


场景 描述 


假设 我 们 有 一 个 3x3 的 棋盘 ， 其 中 有 一 个 单元 格 是 马里 奥 ， 另 一 
个 单元 格 是 宝藏 ， 如 图 11.1 所 示 。 在 游戏 的 每 个 回合 ， 可 以 往 上 、 
下 、 左 、 右 四 个 方向 移动 马里 奥 ， 直 到 马里 奥 找 到 宝藏 ， 游 戏 结束 。 
在 es 强化 学 习 需 要 定义 一 些 基 本 概念 来 完成 对 问题 的 数学 
建 模 。 


R 


图 11.1 超级 玛丽 找 宝藏 


知识 点 


强化 学 习 ， 马 尔 可 夫 决 策 过 程 ， 价 值 迭 代 (Value Iteration) ， 策 
MIA 


问题 1 强化 学 习 中 有 哪些 基本 概念 ? 在 马里 奥 找 宝藏 问 
题 中 如 何 定义 这 些 概 念 ? 


MEE: Heres 


分 析 与 解答 


强化 学 习 的 基本 场景 可 以 用 图 11.2 来 描述 ， 主 要 由 环境 
(Environment) 、 机 器 人 (Agent) 、 状 态 (State) 、 动 作 
(Action) 、 奖 励 (Reward) 等 基本 概念 构成 。 一 个 机 器 人 在 环境 中 
会 做 各 种 动作 ， 环 境 会 接收 动作 ， 并 引起 目 身 状态 的 变迁 ， 同 时 给 机 
希 人 以 奖励 。 机 需 人 的 目标 丈 是 使 用 一 些 策略 ， 做 合适 的 动作 ， 最 大 
化 自 喘 的 收益 。 


动作 


图 11.2 ”强化 学 习 基 本 场景 


整个 场景 一 般 可 以 描述 为 一 个 马尔 可 夫 决 策 过 程 (Markov 
Decision Process, MDP) 。 杞 尔 可 夫 决 策 过程 是 马尔 可 夫 过 程 与 确定 
性 的 动态 规划 相 结 合 的 产物 ， 指 决策 者 周期 地 或 连续 地 观察 具有 马尔 
可 夫 性 的 随机 动态 系统 ， 序 贯 地 做 出 决策 的 过 程 ， 以 俄罗斯 数学 家 安 
德 雷 :马尔 可 夫 的 名 字 命 名 。 这 个 过 程 包括 以 下 几 个 要 素 : 


动作 : 所 有 可 能 做 出 的 动作 的 集合 ， 记 作 A (可 能 是 无 限 的 ) 。 
A= 马 里 奥 在 每 个 单元 格 可 以 行走 的 方向 ， 即 { 上 、 
下 \ FY } o 

TRA: 所 有 状态 的 集合 ， 记 作 Ss。 对 于 本 题 ，S 为 棋盘 中 每 个 单元 
格 的 位 置 坐标 {(x,y); x=1,2,3; y=12,3}， 马 里 奥 当 前 位 于 (1,1) ， 

FEMT (3,2) ° 

奖励 : 机 妖 人 可 能 收 到 的 奖励 ， 一 般 是 一 个 实数 ， 记 作 r。 对 于 本 
题 ， 如 果 马 里 奥 每 移动 一 步 ， 定 义 r=-1; WRENS, EM 
r=0， 游 戏 结束 。 

时 间 (t=1,2,3...) : 在 每 个 时 间 点 {:， 机 器 人 会 发 出 一 个 动作 a,， 

收 到 环境 给 出 的 收益 r,， 同 时 环境 进入 到 一 个 新 的 状态 s,。 

状态 转移 : SxA => SEF. (s, Is 9) = P(S, Shiopa Saa i), E w 
是 说 ， 从 当前 状态 到 下 一 状态 的 转移 ， 只 与 当前 状态 以 及 当前 所 
采取 的 动作 有 关 。 这 就 是 所 谓 的 马尔 可 夫 性 。 

PAWL ft : 从 当前 上 时刻 0 开始 累积 收益 的 计算 方法 是 


R=E( yrl = 
t=0 


， 在 很 多 时 候 ， 我 们 可 以 取 T=o% 。 
强化 学 习 的 核心 任务 是 ， 学 习 一 个 从 状态 空间 S 到 动作 空间 A 的 映 


， 最 大 化 囚 积 受益 。 常 用 的 强化 学 习 算 法 有 Q-Learning、 策 略 梯 
， 以 及 演员 评判 家 算法 (Actor-Critic) 等 。 


问题 根据 图 11.1 给 定 的 马里 奥 的 位 置 以 及 宝藏 的 位 置 ， 
从 价值 迭代 来 考虑 ， 如 何 找到 一 条 最 优 路 线 ? 


难度 : tek 


分 析 与 解答 


上 一 问 已 经 把 强化 学 习 问 题 形式 化 为 马尔 可 夫 决 策 过 程 。 下 面 我 


们 介绍 如 何 利用 价值 和 迭代 求解 马尔 可 夫 决 策 过 程 。 那 么 什么 是 价值 


UE? 我 们 将 当前 状态 的 价值 V(s) 定 义 为 ， 从 状态 s=(xy) 开 始 ， 能 够 获 
得 的 最 大 化 奖励 。 结 合 图 11.3 可 以 非常 直观 地 理解 价值 迄 代 。 


初始 化 H ARIE 


图 11.3 ”迭代 过 程 


首先 ， 初 始 化 所 有 状态 的 价值 V(s)=0。 然 后 ， 在 每 一 轮 氨 代 中 ， 
对 每 个 状态 s 依 次 执行 以 下 步骤 。 


。 逐 一 尝试 [上 、 下 、 左 、 右 } 四 个 动作 ao， 记录 到 达 状 态 * 和 奖励 r。 
。 计 算 每 个 动作 的 价值 q(s,a)=r+V(s') 。 

。 从 四 个 动作 中 选择 最 优 的 动作 2*{9(5,0)} 。 

。 更 新 s 状 态 价值 。 


在 第 一 轮 迭 代 中 ， 由 于 初始 状态 V(s) 均 为 0， 因 此 对 除 宝藏 所 在 位 
置 外 的 状态 s 均 有 VWs)=r+V(s)=-1+0=-1， 即 从 当前 位 置 出 发 走 一 步 获 
得 奖励 r=-1。 


在 第 二 轮 和 迭代 中 ， 对 于 和 宝藏 位 置 相 邻 的 状态 ， 最 优 动作 为 一 步 
到 达 Vs)=0 的 状态 ， 即 宝藏 所 在 的 格子 。 因 此 ，Vs) 更 新 为 
r+V(s")=-1+0=-1; 其 余 只 能 一 步 到 达 Ws)=-1 的 状态 ，Vs) 更 新 为 
r+V(s')=-1+(-1)=-2 ° 


FB SOR RCIA MTA Mal © FTL ACH, FESR URAC, Ar 
AVS) at Ba abi BE EC, MEERE ARET RERE o Bx 
wR, (oo eee 每 一 步 选 择 最 优 动作 ， 即 可 最 快 
地 找到 宝藏 。 


上 面 的 迭代 过 程 实际 上 运用 了 贝尔 曼 方 程 (Bellman Equation) ， 
来 对 每 个 位 置 的 价值 进行 更 新 


V.(s) = max > p(s'sris,a)[r + ywW.(s')] 
(11.1) 


贝尔 受 方程 中 状态 s 的 价值 Ws) 由 两 部 分 组 成 : 


采取 动作 a 后 融 来 的 奖励 r。 
采取 动作 a 后 到 达 的 新 状态 的 价值 V(s")。 


问题 3 ”根据 图 11.1 给 定 的 马里 奥 的 位 置 以 及 宝藏 的 位 置 ， 
从 策略 迭代 来 考虑 ， 如 何 找到 一 条 最 优 路 线 ? 


TERE: took teats 
分 析 与 解答 


本 世 介 绍 马 尔 可 夫 决 策 过 程 的 另 一 种 求解 方法 一 一 策略 迭代 。 什 
么 叫 策略 ? 策略 就 是 根据 当前 状态 决定 该 采取 什么 动作 。 以 场景 中 的 
马里 奥 寻 找 宝箱 为 例 ， 马 里 奥 需 要 不 断 朝 着 宝藏 的 方 同 前 进 : 当前 状 
SURE Bi MU, HAE, SRAM RE BLT, 
REMIZE BRE ° 


UO (Al OG E SR AY EN A a P28 RS F Ai ( Policy 
Evaluation) 。 给 定 一 个 策略 r， 我 们 可 以 计算 出 每 个 状态 的 期 望 价值 
Vls)。 策 略 迄 代 可 以 帮助 我 们 找到 更 好 的 策略 ， 即 期 望 价值 更 高 的 集 
IE, RAER T ° 


(1) 初始 化 : 随机 选择 一 个 策略 作为 初始 值 。 比 如 “不 管 什么 状 
态 ， 一 律 朝 下 走 ”， 即 P (4A = 朝 下 走 |Si=s) =1, P (A = 其 他 | Ss) 
0 o 


ai 


E 


(2) 进行 策略 评估 : AYES BTR ER IT BV) HE, +y C’) 
S,=S) 。 
(3) 进行 策略 提升 : 计算 当前 状态 的 最 优 动 作 ™*t9-(5,0}， 更 新 


some = argmax, {q,(s,a)} = argmax, > p(s',r|s,a)[r+yV,(s')] 


(4) 不 停 地 重复 策略 评估 和 和 俩 略 提升 ， 直 到 策略 不 再 变化 为 止 。 
在 马里 奥 寻 找 至 藏 问题 中 ， 策 略 欠 代 过 程 如 图 11.4 所 示 。 


Policy Expected Value 


图 11.4 ”策略 迭代 过 程 


初始 化 策略 为 : 不 论 马里 奥 处 于 哪个 状态 ， 一 律 朝 下 走 。 根 据 这 
一 策略 进行 策略 评估 不 难 发 现 ， 只 有 宝藏 正 上 方 的 状态 可 以 到 达 宇 
减 ， 期 望 价值 为 到 宝藏 的 距离 (-2，-1 和 0) ; 其 余 状 态 不 能 通过 当 
前 策略 到 达 宝 藏 ， 期 望 价值 为 负 无 穷 。 然 后 根据 当前 的 期 望 价值 进行 
策略 提升 : 对 于 宝藏 下 上方 的 状态 ， 策 略 已 经 最 优 ， 保 持 不 变 ; 对 于 
Nf HE RIE EAN KA, RM RM SB Hae H 
m(s) = argmax, > P(s',r|s,a)[r+yV,(s')] 
sr , BTL R EE YB IR] E BH — 


HF o 


通过 上 一 轮 的 策略 提升 ， 这 一 轮 的 策略 变 为 : 对 于 宝藏 正 上 方 的 
状态 ， 同 下 移动 ， 对 于 不 在 宝藏 正 上 方 的 状态 ， 横 同 移动 一 步 。 根 据 
当前 策略 进行 策略 评 佑 ， 更 新 各 状态 期 望 价 值 ， 宝藏 正 上 方 的 状态 价 
值 期 户 不 变 ， 仍 等 于 到 宝藏 的 距离 ， 不 在 宝藏 正 上 方 的 状态 期 户 价 什 
更 新 为 7+YV(s )， 即 横向 移动 一 步 的 奖励 与 目标 状态 的 期 望 价 值 之 
和 。 然 后 根据 更 新 后 的 期 望 价值 进行 策略 提升 :不 难 发 现 ， 对 于 所 有 
状态 ， 当 前 策略 已 经 最 优 ， 维 持 不 变 ， 中 止 策 略 提 升 过 程 。 


最 终 ， 马 里 奥 只 需 从 初始 状态 (1,1) 开始 ， 按 照 当 前 位 置 的 最 优 
策略 进行 行动 ， 即 问 右 行动 一 步 ， 然后 一 直 向 下 行动 ， 即 可 最 快 找 到 
FE HRY ° 


02 ”视频 游戏 里 的 强化 学 习 


场景 描述 


游戏 是 强化 学 习 中 最 有 代表 性 也 是 最 合适 的 应 用 领域 之 一 ， 儿 乎 
ie SMC PTAA: 环境 一 游戏 本 里 的 状态 ; 动作 一 一 用 户 
操作 ; 机 器 人 一 一 程序 ， 回 馈 一 一 得 分 、 输 万 等 。 通 过 输入 原始 像素 
来 玩 视 频 游戏 ， 是 人 工 稼 能 成 熟 的 标志 之 一 。 雅 达 利 (Atari) 是 二 十 
世纪 七 八 十 年 代 红 极 一 时 的 电脑 游戏 ， 类 似 于 国内 的 红 昌 机 游戏 ,但 
古 画 面 元 素 要 更 简单 一 些 。 它 的 模拟 絮 相 对 成 熟 ， 使 用 雅 达 利 游戏 来 
测试 强化 学 习 ， 可 谓 量 映 定做 。 其 应 用 场景 可 以 描述 为 :在 离散 的 时 
间 轴 上 ， 每 个 时 刻 你 可 以 得 到 当前 的 游戏 画面 (环境 ， 选 择 向 游戏 
机 发 出 一 个 行动 指令 〈 如 上 、 下 、 左 、 右 、 开 火 等 ) ， 然 后 得 到 一 个 
反馈 CKE) 。 基 于 原始 像素 的 强化 学 习 由 于 对 应 的 状态 空间 巨大 ， 
没有 办 法 直接 使 用 传统 的 方法 。 于 是 ，2013 年 DeepMind 提 出 了 深度 强 
化 学 习 模型 ， 开 始 了 深度 学 习 和 强化 学 习 的 结合 81 o 


传统 的 强化 学 习 主要 使 用 Q-learning， 而 深度 强化 学 习 也 使 用 Q- 
learning 为 基本 框架 ， 把 Q-learning 的 对 应 步 台 改 为 深度 形式 ， 并 引入 
了 一 些 技巧 ， 例 如 经 验 重 放 (experience replay) 来 加 快 收敛 以 及 提高 
泛 化 能 


知识 ， AAJ 
强化 学 习 ，Q-learning 


Pe 什么 是 深度 强化 学 习 ， 它 和 传统 的 强化 学 习 有 什么 
SEI? 


难度 ， 克 交友 六 交 
分 析 与 解答 


2013 年 ，DeepMind 提 出 的 深度 强化 学 习 仍 然 使 用 经 典 的 Q- 
learning 框 架 BSU。Q-learning 的 本 质 是 ， 当 前 状态 s;、 回 馈 qa;、 交 励 r， 
以 及 Q 画 数 之 间 存 在 关系 G0)=,， 其 中 5T +y e MAK Olsa) 
,如果 si,1 是 终 态 ， 则 yj=r;， 在 传统 的 Q-learning 中 ， 考 虚 状 态 序列 是 
无 限 的 ， 所 以 并 没有 终 态 。 依 据 这 个 关系 ， 可 以 对 Q 函 数 的 取 值 做 迭 
代 改进 。 所 以 如 果 我 们 有 一 个 四 元 组 (ssasrssj,j)， 我 们 可 以 用 随机 梯 
度 下 降 法 的 思想 对 Q 画 数 泛 代 前 后 的 平方 差距 0y-Q(sa)》 做 一 次 梯度 
下 降 。 


经 典 的 Q-learning 算法 如 图 11.5 所 示 。 为 了 能 与 Deep Q-learning 
作对 比 ， 我 们 把 最 后 一 步 Q 画 数 更 新 为 等 价 的 描述 ， 令 上 =7+y。 
max Olsa) 并 对 (3 一 Q(s,,4,)) 执 行 一 次 梯度 下 降 ， 完 成 参数 更 
新 。 


0 一 0。 /初始 化 2 
令 世 代 E=1,....M; 
构建 初始 状态 ; 
S El, Te 
a EFREN O 函数 而 来 的 策略 选择 一 个 行动 ; 
执行 a,; 
7 一 获得 当前 收益 ; 
si 全 采样 获得 下 一 个 状态 ; 
更 新 O 函数 : O(s,,4,) — Ols,,4,)+alr, +y max Olsa’) 
—Q(s,,4,)] = 


COAT nA fF UN 一 


图 11.5 ”经 典 Q-learning 算 法 


图 11.6 是 深度 Q-learning 算法 ， 其 中 红色 部 分 为 和 传统 Q-learning 不 
同 的 部 分 。 


: 令 世 代 FF 1,...,/ M; 


1 

2: 构建 初始 状态 s; 
3 De 

4 $ lT; 


| 随机 选择 的 状态 ， 以 概率 < 


5 % max Qs ,4:0)， 以 概率 1 一 <; 

6 HT a; 

7: F, 二 获得 当前 收益 ; 

8: Sy 全 采样 并 加 以 处 理 获 得 下 一 个 状态 ; 
9: De- D+ lm 

10: (Spa 7 pS) A D PRE; 


F» 如 果品 是 终点 ， 
ml +ye max O(s, ,40)， 如 果 s ,不 是 终点 ; 


12: 对 or Alsa OY 执行 一 次 梯度 下 降 。 


图 11.6 ”深度 Q-learning 算法 


比较 这 两 个 算法 ， 我们 不 难 发 现 深度 Q-learning 和 传统 的 Q- 
learning 的 主体 框架 是 相同 的 ， 在 每 一 次 子 迭 代 中 ， 痢 是 按照 以 下 步 又 
进行 。 


(1) 根据 当前 的 Q 画 数 执行 一 次 行动 a,。 

(2) 获得 本 次 收益 n, 及 下 一 个 状态 si,1。 

(3) 以 某 种 方式 获得 一 个 四 元 组 Sj)»,5j11) 。 

(4) 计算 y。 

(5) 对 (y-Q(ssa;0))? 执 行 一 次 梯度 下 降 ， 完 成 参数 更 新 。 


表 11.1 是 传统 Q-learning 与 深度 Q-leaming 的 对 比 。 以 获得 状态 的 方 
式 为 例 ， 传 统 Q- learning 直 接 从 环境 观测 获得 当 前 状态 ;而 在 深度 Q- 
learning 中 ， 往 往 需 要 对 观测 的 结果 进行 某 些 处 理 来 获得 Q@ 函 数 的 输入 
状态 。 比 如 ， 用 深度 Q-learning 玩 Atari 游 戏 时 ， 是 这 样 对 观察 值 进行 处 
理 的 : Ec Zl MSS Bl AY RRITE IIRAS IE ae XM, TL 
一 个 映射 函数 办 044Xs0， 得 到 处 理 后 的 标准 状态 。 在 实际 
的 应 用 中 ，$ 选 择 最 后 4 帧 图 像 ， 并 将 其 堆 玲 起来。 


表 11.1 ”传统 Q-learning 与 深度 Q-learning 对 比 


传统 Q-learning 深度 Q-learning 


以 一 个 小 的 概率 上 TAL 


一 次 随机 行动 ， 这 


1 Wa E 
ORHI | 根据 当前 的 0 函数 确定 性 | 其 实 是 MAB 算法 中 


O 函数 执行 一 次 行 


Ha 地 选择 一 个 行动 的 e-greedy， 可 以 在 
探索 和 利用 之 间 做 
权衡 
(2) 获得 本 次 收 从 环境 获得 收益 ， 状 
益 志 及 下 一 个 状态 | 从 环境 直接 获得 态 部 分 可 能 需要 对 
Sii 观察 值 进行 处 理 


(3) 以 某 种 方式 


aea | 假设 当前 迁 代 时 刻 是 U | 从 历史 记录 中 随机 


ere 简单 地 令 = mies 
和 传统 Q-learning 
(4) 计算 上 = +y max Osaa) | 一 样 ,除了 需要 考虑 
有 限 长 的 状态 序列 
(5 ) 执行 梯度 下 Q(s,4,) 一 QO(s,,a,)+ 和 传统 Q-learning 
降 aly -Os,,a,)] 一 样 


从 多 巴 胺 到 强化 学 习 


多 巴 胺 是 一 种 让 人 感到 兴奋 和 愉悦 的 神经 递 质 ， 由 大 脑 分 小 。 多 巴 胺 和 强化 学 习 
听 起 来 相距 其 远 ， 但 出 人 意料 的 是 它们 在 本 质 上 其 实 具有 很 多 共通 性 一 -都 是 为 了 获得 
延迟 到 来 的 奖励 。 当 我 们 获得 超过 期 望 的 回报 或 者 奖励 时 ， 大 脑 会 释放 大 量 多 巴 胺 ， 让 
我 们 感到 兴奋 和 愉悦 。 那 么 决定 多 巴 胺 的 释放 的 因素 是 答案 是 奖励 和 预期 之 间 
的 差 值 。 如 果 你 是 一 个 养 宠物 的 人 ， 有 没有 观察 到 这 种 现象 : 通常 在 给 宠物 喂食 之 前 ， 
它们 便 开始 分 泌 口 水 。 俄 国 科 学 家 巴 普 洛 夫 便 做 过 这 样 一 人 ee TELAT BZ BUSCH 
铃 销 ， 训 练 狗 将 铃 响 和 食物 联系 在 一 起 ， 以 后 没有 看 到 食物 时 也 会 流 口水 。 随 着 检测 技 
的 提高 ， 科学 家 发 现 多 巴 胺 的 释放 并 非 来 源 于 奖励 本 身 ， 而 是 来 自 于 对 奖励 的 预期 。 
当 现实 的 回报 高 于 预期 时 ， 会 促成 多 巴 胺 的 释放 ， 让 人 觉得 生活 美好 。 相 反 的 ， 如 果 现 
实 的 回报 总 是 不 及 预期 ， 多 巴 胺 的 分 泌 量 会 降低 ， 信 们 也 会 慢 慢 觉 得 生活 一 成 不 变 ， 缺 
乏 乐 趣 。 平 衡 预 期 与 回报 之 间 的 差距 正 是 时 间 差 分 学 习 (Temporal Difference 
Learning) 的 目标 :根据 现实 回报 和 预期 的 差 值 来 调整 价值 画 数 的 值 ， 这 与 大 脑 分 泌 多 
巴 胺 的 机 制 异曲同工 。 时 间 差 分 学 习 可 以 用 于 优化 V-function 也 可 以 用 于 优化 Q- 
function， 而 本 节 介 绍 的 Q-learning 正 是 时 间 差 分 分 算法 的 个 特例 。 


t = 


03 ”策略 梯度 


场景 描述 


Q-learning 因为 涉及 在 状态 空间 上 求 Q 函 数 的 最 大 值 ， 所 以 只 适用 
于 处 理 离散 的 状态 空间 ， 对 于 连续 的 状态 空间 ， 最 大 化 Q 芳 数 将 变 得 
非常 困难 。 所 以 对 于 机 顺 人 控制 等 需要 复杂 连续 输出 的 领域 ，Q- 
learning 束 显得 不 太 合 适 了 人。 其 次 ， 包 括 深度 Q-learning 在 内 的 大 多 数 
强化 学 习 算 法 ， 都 没有 收敛 性 的 保证 ， 而 策略 梯度 (Policy Gradient) 
则 没有 这 些 问 题 ， 它 可 以 无 差别 地 处 理 连 续 和 离散 状态 空间 ， 同 时 保 
证 至 少 收敛 到 一 个 局 部 最 优 解 。 


知识 点 
强化 学 习 ，Q-leaming 


问题 “什么 是 策略 梯度 ， 它 和 传统 Q-learning 有 什么 不 
同 ， 相 对 于 Q-learning 来 说 有 什么 优势 ? 


难度 :， 女 女 女 女 六 
分 析 与 解答 


在 策略 梯度 中 ， 我 们 考虑 前 后 两 个 状态 之 间 的 关系 为 
sm ~ Plsimils,4,)， 其 中 s,、swsj 是 相继 的 两 个 状态 ，a, 是 t 步 时 所 采取 的 
行动 ，p 是 环境 所 决定 的 下 个 时 刻 状态 分 布 。 而 动作 a 的 生成 模型 GE 


略 ) 为 4 ~ Tla | %)， 其 中 必 是 以 6 为 参 变量 的 一 个 分 布 ，aw 从 这 个 分 
布 进行 采样 。 这 样 ， 在 同一 个 环境 下 ， 强 化 学 习 的 总 收益 画 数 ， 


ROSEA) 完全 由 b 所 决定 。 策 略 梯度 的 基本 思想 就 是 ， 直 接 用 梯 
度 方 法 来 优化 R(0)。 可 以 看 出 ， 和 Q-learning 不 同 的 是 ， 策 略 梯度 并 不 
估算 Q 画 数 本 身 ， 而 是 利用 当前 状态 直接 生成 动作 a。 汶 有 效 避 免 了 在 
连续 状态 空间 上 最 大 化 0 醒 数 的 困难 。 同时， 直接 用 梯度 的 方法 优化 
RC6) 可 以 保证 至 少 是 局 部 收 化 的 。 


要 使 用 梯度 法 ， 首 先 要 知道 如 何 计算 RC(0) 的 导数 。 设 ft 为 某 一 次 0 
到 TH 时 间 所 有 状态 及 行动 的 集合 〈 称 作 一 条 轨迹 ) ， 则 R(O)=E(r(D)， 


其 中 画 数 r 计 算 了 轨迹 r 的 得 分 。 我 们 有 R(O)= EC(D)= jord 
所 以 


VoR(O)= Vo | po(e)r(a)de 
= jp (Vo log(p4(2))r(@)de 
= E(V, log(p,(z))r(z)) 
= E(V, log( p(s, ) * Tg (also) * p(silao, so)* 
P(a|s,)*...°%(ap|s7))r(T)) 


= B(S'V loga, (a, |s,)*r(T)), 
(11.2) 


ti BUS He AA PG alt SAGER EMM SOFC, ALLL 
Va log(D(S;.114, +5, )) = 9 © BES LD cA AT Dy Ae BEY 


2(7)= > V,logz, (a,|s,) e r(t) 


(11.3) 


其 中 sh，aj 为 轨迹 tr 上 每 一 步 的 状态 和 动作 。 这 样 ， 给 定 一 个 策略 
no， 我 们 可 以 通过 模拟 获得 一 些 轨迹 ， 对 于 每 条 轨迹 ， 可 以 获得 其 收 


益 r(D 以 及 每 一 步 的 < 状态 、 行 动 > 对 ， 从 而 可 以 通过 式 (11.2) 和 式 
获得 当前 参数 下 对 梯度 的 售 计 。 一 个 简单 的 算法 描述 如 图 11.7 
FITZ ° 


1; 0 一 2 i! 初始 化 0; 

2: 重复 以 下 步骤 ( 有 1,2.3,… ) 直至 收敛 : 

基于 当前 的 96， 进行 若 干 次 独立 试验 ， 获 得 轨迹 rnp,mm; 

4 根据 式 ( 11.3 ) 获得 对 应 的 梯度 ，g(r),g(z),8(s)， 8(zm) ， 从 而 获得 


(z,) 


对 VRO 的 一 个 估计 ，V,R(9) = = 


n 


Be, 0<—0+a,V,R(O) // 更 新 9，as 为 第 E 次 的 学 习 速 率 。 
图 11.7 策略 梯度 算法 


注意 到 ，V6R(9) 实 际 上 是 一 个 随机 变量 g(7) 的 期 望 。 我 们 对 g(D) 进 
行 若干 次 独立 采样 ， 可 以 获得 对 其 期 望 的 一 个 估计 。 如 果 能 在 不 改变 
期 望 的 前 提 下 减少 g(t?) 的 方差 ， 则 能 有 效 提高 对 其 期 望 估 计 的 效率 。 我 
no 意 到 [esis ， 所 以 有 
logz, (a,|s,)) = |Vpy (T) ° dt = g (7T) = oS ees 
EÈ Wologre(als,))=\Weole)-dr=V [pol =0 ,于 任 一 个 常量 b， 我 们 定 
人 g; o-( waogml jc- 
义 一 个 强化 梯度 a ， 易 知 
E(g(7))=Z(gs (22)， 选 取 合适 的 bp， 可 以 获得 一 个 方差 更 小 的 se， 而 
维持 期 望 不 变 。 经 过 计算 可 以 得 到 最 优 的 bp 为 
E((》 _,Vologz, (a, | 5,))’r(z)) 
E(D)_Vologz,(a,ls,))”) 


optimal = 


(11.4) 


于 是 ， 得 到 一 个 改 民 的 算法 ， 如 图 11.8 所 示 。 


1: 0 6// 初始 化 0; 
2: 重复 以 下 步骤 (E=1,2,3,---) 直至 收敛 : 
3: ”基于 当前 的 9， 进行 若干 次 独立 试验 ， 获 得 轨迹 mm:mi 
E (E; Valogaola, rhn )) r(z,) 
D(L Vloer la, Sig 外 
ji 根据 公式 ( 11.4 ) 估算 pasnavsepax 是 二 所 对 应 的 状态 和 动作 ; 
5: ”根据 公式 (11.4 ) 获得 对 应 的 强化 梯度 ，8, (71),86 (22)85 (53) :85 (Tad, M 


4: b= 


而 获得 对 VRO 的 一 个 估计 ，VwR(O) = 之 


"2 C). 
6: 6+ aV RO 更 新 0，or 为 第 三 次 的 学 习 速 率 。 
图 11.8 改良 的 策略 梯度 算法 
在 上 述 策 略 梯度 算法 中 ， 通 过 估算 一 个 新 的 强化 梯度 可 以 有 效 缩 


0 从 而 提高 梯度 估算 的 效率 ， 那 么 如 何 推出 最 优 的 pb 
值 呢 ? 


k=0 


s ; : a -Br o(a, jc )—5) 
我 们 回 到 策略 梯度 算法 ， 有 和 名 oem JOD, 


_ A=) V,logz, (a, |s) 5 pees 
义 随机 变量 ko ，B=r(t)， 可 以 得 到 E(A)=0。 这 样 问题 
变 成 ， 在 E(A)=0 的 前 提 下 ， 和 寻找 最 优 的 常量 bp， 使 得 var(A(B-b)) 最 小 。 


argmin(var(A(B—Db))) = argmin(E((A(B—b)—E(AB))’)) 
= argmin(E((AB — E(AB)-b » A)’)) 
= argmin(h’ E( A’) — 2hE( A’ B) + E((AB - E(AB))’)) 
= argmin(b’ E( A’) —2bE(A’B)) 
_ E(A’B) 
E(A’) 


a((5 Vologez, (a, | s)) He) 
如 (Zoogr (aii) | 


(11.5) 


即 式 (11.4) 中 的 结果 。 


04 ”探索 与 利用 


场景 描述 


在 和 环境 不 断交 互 的 过 程 中 ， 智 能 体 在 不 同 的 状态 下 不 停 地 探 
索 ， 获 取 不 同 的 动作 的 反馈 。 探 索 (Exploration) 能 够 帮助 智能 体 通 
过 不 断 试 验 获 得 反馈 ， 利 用 (Exploitation) 是 指 利 用 已 有 的 反馈 信息 
选择 最 好 的 动作 。 因 此 如 何平 衡 探索 和 利用 是 智能 体 在 交互 中 不 断 学 
习 的 重要 问题 。 


知识 点 
强化 学 习 ， 探 索 ， 利 用 


问题 ”在 智能 体 与 环境 的 交互 中 ， 什 么 是 探索 和 利用 ? 如 
何平 衡 探索 与 利用 ? 


难度 : kkk 
分 析 与 解答 
假设 我 们 开 了 一 家 叫 Surprise Me 的 饭馆 ， 客 人 来 了 不 用 点 餐 ， 而 
是 用 算法 来 决定 该 做 哪 道 菜 。 具 体 过 程 为 : 
(1) ZA user = 1,...,T 依 次 到 达 饭 馆 。 


(2) 给 客人 推荐 一 道 菜 ， 客 人 接受 则 留 下 吃饭 (Reward=1) , 
拒绝 则 离开 (Reward= 小 o 


(3) 记录 选择 接受 的 客人 总 数 total_reward 。 
为 了 由 浅 入 深 地 解决 这 个 问题 ， 我 们 先 做 以 下 三 个 假设 。 
(1) 同一 道 菜 ， 有 时 候 会 做 得 好 吃 一 些 (概率 = P) A 
难 吃 一 些 〈 概 率 =1-p) ,但 是 并 不 知道 概率 p 是 多 少 ， 只 外 能 通过 多 次 
观测 进行 统计 。 


(2) 不 考虑 个 人 口味 的 差异 ， 即 当 荣 做 得 好 吃 时 ， 客 人 一 定 会 
下 (Reward=1) ; 当 菜 不 好 吃 时 ， 客 人 一 定 会 离开 (Reward=0) 


(3) 沫 好 吃 或 不 好 吃 只 有 客人 说 的 算 ， 饭 馆 是 事先 不 知道 的 。 


探索 阶段 : 通过 多 次 观测 推 听 出 一 道 染 做 得 好 吃 的 概率 。 如 采 一 
(获取 了 Ki 次 反馈 ) ， 就 可 以 算出 染 做 得 好 吃 的 概 


o n> 
BY 


k 
p= pe eward, 
(11.6) 


如 果 推 荐 的 次 数 足 够 多 ，k 足 够 大 ， 那 么 了 会 趋 近 于 真实 的 菜 做 得 
好 吃 的 概率 p。 


利用 阶段 : ee 的 概率 ， 决 定 该 如 何 推荐 ?” 如 
果 每 道 菜 都 外 推荐 了 很 多 束 可 以 计算 出 每 道 菜 做 得 好 吃 的 概率 
{Bi, Prs e Pn TERE a ae 


PRA ANA AF Be — PRA AREY Alo ee, RRINE 
BMEWS A PAs, KIMAPI, BAT EIME 
每 道 菜 好 吃 的 概率 ， 二 是 ， 利 用 会 基于 目前 的 估计 拿 出 “最 好 的 * 菜 来 
服务 客户 ,但 目前 的 估计 可 能 是 不 准 的 (因为 试 吃 的 人 还 不 够 多 ) 。 


如 何平 衡 探索 和 利用 呢 ? 可 以 使 用 E-greedy 算 法 ， 即 每 当 客人 到 
来 时 ， 先 以 E 的 概率 选择 探索 ， 从 N 道 菜 中 随机 选择 (概率 为 CN) 一 
个 让 客人 试 吃 ， 根 据 客人 的 反馈 更 新 菜 做 得 好 吃 的 概率 {Bi, 记 ，…, Pn) 
， 然 后 ， 以 1-€ 的 概率 选择 利用 ， 从 NN 道 菜 {Bi, Ba Pw} 中 选择 好 吃 的 
概率 最 高 的 菜 推荐 给 用 户 。 


E-greedy 算 法 也 存在 一 些 缺 点 ， 比 如 ， 在 试 吃 次 数 相 同 的 情况 
下 ， 好 吃 和 难 吃 的 菜 得 到 试 吃 的 概率 是 一 样 的 ， 有 一 道 菜 持续 得 到 好 
吃 的 反馈 ， 而 另 一 道 菜 持续 得 到 难 吃 的 反馈 ， 但 在 Egreedy 中 ， 探 索 
两 道 菜 的 概率 是 一 样 的 ， 均 为 EN; 在 估计 的 成 功 概 率 相 同 的 情况 
下 ， 试 吃 次 数 多 的 和 试 吃 次 数 少 的 菜 得 到 再 试 吃 的 概率 是 一 样 的 : 假 
设 有 两 道 菜 ， 第 一 道 菜 50 人 当中 30 个 人 说 好 ， 第 二 道 菜 5 个 人 当中 3 个 
人 说 好 ， 虽 然 两 道 菜 的 成 功 概率 都 是 60% (30/50 = 3/5) ， 但 显然 反馈 
的 人 越 多 ， 概 率 估 计 的 越 准 。 再 探索 时 ， 应 该 把 重心 放 在 试 吃 次 数 少 
的 菜 上 。 


总 结 一 下 ，E-greedy 生 硬 地 将 选择 过 程 分 成 探索 阶段 和 利用 阶 
段 ， 在 探索 时 对 所 有 物品 以 同样 的 概率 进行 探索 ， 并 不 会 利用 任何 历 
史 信 息 ， 包 括 茶 道 沫 被 探索 的 次 数 和 某 道 菜 获得 好 吃 反 馈 的 比例 。 


不 妨 让 我 们 起 记 探 索 阶段 和 利用 阶段 ， 仔 细 想 想 如 何 充分 地 利用 
历史 信息 ， 找 到 最 值得 被 推荐 的 末 。 


。 观 测 1， 如 果 一 道 菜 已 经 被 推荐 了 k 沪 ， 同 时 获取 了 ki 次 反馈 ， 就 
可 以 算出 菜 做 得 好 吃 的 概率 : 


(11.7) 


当 k 趋 近 正 无 穷 时 ，P 会 趋 近 于 真实 的 菜 做 得 好 吃 的 概率 p。 


。 观测 2， 现 实 当 中 一 道 菜 被 试 吃 的 次 数 k 不 可 能 无 穷 大 ， 因 此 估计 
出 的 好 吃 的 概率 了 和 真实 的 好 吃 的 概率 p 忌 会 存在 一 个 差 值 A， 即 


p-ASpSpta o 


基于 上 面 两 个 观测 ， 我 们 可 以 定义 一 个 新 的 策略 :每 次 推荐 时 ， 
总 是 乐观 地 认为 每 道 菜 能 够 获得 的 回报 是 P+A， 这 便 是 著名 的 置信 区 
HE (Upper Confidence Bound, UCB) 算法 。 最 后 只 需 解 决 一 个 问 
题 : 计算 真实 的 概率 和 估计 的 概率 之 间 的 差 值 A。 


在 进入 公式 之 前 ， 让 我 们 直观 的 理解 影响 A 的 因素 。 对 于 被 选中 
的 菜 ， 多 获得 一 次 反馈 会 使 A 变 小 ， 最 终 会 小 于 其 他 没有 被 选中 的 
瑟 ， 对 于 没 被 选中 的 瑟 ，A 会 随 着 轮 数 的 增 大 而 增 大 ， 最 终 会 大 于 其 
他 被 选中 的 采 。 


下 面 正式 地 介绍 如 何 计 算 和 人， 首先 介绍 Chernoff-Hoeffding 
Bound: {Et Reward, sees Reward, 是 在 [0,1] 之 间 取 值 的 独立 同 分 布 随 机 
> Reward, 


a, POSER, H p 表示 分 布 的 均值 ， 那 么 有 


P{|p—p|< A} >1-207"* 


(11.8) 


2InT 
当 A 取 值 为 \| n 时 ， 其 中 7T 表 示 有 T 个 客人 ，n 表 示 呈 被 吃 过 的 次 


数 ， 于 是 有 
2]ln7 2 
P}|p-p|S — > 
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(11.9) 
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这 就 是 说 Non Von 是 以 ”7 的 概率 成 立 的 : 


。 当 T=2 时 ， 成 立 的 概率 为 0.875 
e 当 T=3 时 ， 成 立 的 概率 为 0.975; 


e 当 T=4 时 ， 成 立 的 概率 为 0.992 。 


2InT 
可 以 看 到 ， SAREI W, 回报 的 均值 Pp 距离 真实 回报 p 的 差 
距 在 A 范围 内 的 概率 已 经 非常 接近 1 了 ， 因 此 A 的 取 值 是 一 个 非常 合适 
的 “置信 区 间 上 界 *。 我 们 乐观 地 认为 每 道 菜 能 够 获得 的 回报 是 
有 +A， 既 利用 到 了 当前 回报 的 信息 ， 也 使 用 “置信 区 间 上 界 ” 进 行 了 探 
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如 果 读 者 对 探索 和 利用 问题 有 兴趣 ， 可 以 继续 探究 一 下 基于 贝 叶 
斯 思想 的 Thompson Sampling， 和 考虑 上 下 文 信息 的 LinUCB。 


第 12 章 ”集成 学 习 


面 对 一 个 机 右 学 习 问 题 ， 通 闸 有 两 种 策略 。 一 种 是 研发 人 员 笑 试 
各 种 模型 ， 选 择 其 中 表现 最 好 的 模型 做 重点 调 参 优化 。 这 种 策略 类 似 
于 奥运 会 比赛 ， 通 过 强 强 竞争 来 选拔 最 优 的 运动 员 ， 并 逐步 提高 成 
绩 。 另 一 种 重要 的 策略 是 集 各 家 之 长 ， 如 同 质 明 的 君主 广泛 地 听取 众 
多 谋 臣 的 建议 ， 然 后 综合 考虑 ， 得 到 最 终 决 策 。 后 一 种 策略 的 核心 ， 
古 将 多 个 分 类 器 的 结 采 统一 成 一 个 最 终 的 决策 。 使 用 这 类 集 略 的 机 器 
学 习 方法 统称 为 集成 学 习 。 其 中 的 每 个 单独 的 分 类 需 称 为 基 分 类 船 。 


俗语 说 “二 个 吴 皮 匠 ， 顶 一 个 诸 欧 之 *"， 基 分 类 紫 束 类似 于 “ 员 皮 
折 ”， 而 之 前 介绍 的 很 多 复杂 模型 可 以 认为 是 “ 诸 锡 亮 *。 即 使 单一 一 
MARIE’ HAR HEA Baik, Baws eR BAG iB 
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赛 中 也 有 非常 成 功 的 应 用 。 例 如 在 Kaggle 竞 赛 中 所 向 披 靡 的 
XGBoost， 就 是 成 功 应 用 集成 学 习 思 想 的 一 个 例子 。 


01 集成 学 习 的 种 类 


场景 描述 


集成 学 习 征 一 大 类 模型 融合 策略 和 方法 的 统称 ， 其 中 包含 多 种 集 
成 学 习 的 思想 。 本 题 希 望 考察 的 是 读者 对 于 各 主要 集成 学 习 方法 的 基 
本 了 解 程度 。 


知识 点 


Boosting, Bagging, ÆI Rat 


问题 集成 学 习 分 哪 几 种 ?他们 有 何 异同 ? 


难度 : Herero 


分 析 与 解答 


= Boosting 


Boosting 77 72 ill RE DR as RH ER TA TN, MAETR 
间 有 依赖 。 


它 的 基本 思路 是 将 基 分 类 屁 层 层 合 加， 每 一 层 在 训练 的 时 候 ， 对 
前 一 层 基 分 类 融 分 错 的 样本 ， 给 予 更 高 的 权重 。 测 试 时 ， 根 据 各 层 分 
类 需 的 结果 的 加 权 得 到 最 终结 有 果 。 


Boosting 的 过 程 很 类 似 于 人 类 学 习 的 过 程 〈 见 图 12.1) ， 我 们 学 习 
新 知识 的 过 程 往往 是 迭代 式 的 ， 第 一 按 学 习 的 时 候 ， 我 们 会 记 住 一 部 
分 知识 ， 但 往往 也 会 犯 一 些 错 误 ， 对 于 这 些 错 误 ， 我 们 的 印象 会 很 
深 。 第 二 所 学 习 的 时 候 ， 束 会 针对 犯 过 错误 的 知识 加 强 学 习 ， 以 减少 
ee 。 不 断 循环 往复 ， 直 到 犯错 误 的 次 数 减 少 到 很 低 的 程 
J o 


图 12.1 Boosting 主 要 思想 : 迭代 式 学 习 


= Bagging 


Bagging 与 Boosting 的 串 行 训练 方式 不 同 ，Bagging 方 法 在 训练 过 程 
中 ， 各 基 分 类 器 之 间 无 强 依赖 ， 可 以 进行 并 行 训练 。 其 中 很 著名 的 算 
法 之 一 是 基于 决策 树 基 分 类 器 的 随机 森林 (Random Forest) 。 为 了 让 
基 分 类 器 之 间 互 相 独 立 ， 将 训练 集 分 为 若干 子 集 〈 当 训练 样本 数量 较 
少时 ， 子 集 之 间 可 能 有 交 符 ) 。Bagging 方 法 更 像 是 一 个 集体 决策 的 过 
程 ， 每 个 个 体 都 进行 单独 学 习 ， 学 习 的 内 容 可 以 相同 ， 也 可 以 不 同 ， 
也 可 以 部 分 重 又 。 但 由 于 个 体 之 间 存 在 差异 性 ， 最 终 做 出 的 判断 不 会 
完全 一 致 。 在 最 终 做 决策 时 ， 每 个 个 体 单独 作出 判断 ， 再 通过 投票 的 
方式 做 出 最 后 的 集体 决策 ( 见 图 12.2) ° 


图 12.2 ”Bagging 主 要 思想 : 集体 投票 决策 
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Bagging 方 法 的 差异 。 基 分 类 器 ， 有 时 义 被 称 为 弱 分 类 絮 ， 因 为 基 分 类 
右 的 错误 率 要 大 于 集成 分 类 器 。 基 分 类 右 的 错误 ， 是 偏 凌 和 方 鞭 两 种 
错误 之 和 。 偏 差 主 要 是 由 于 分 类 器 的 表达 能 力 有 限 导 致 的 系统 性 错 
误 ， 表 现在 训练 误 关 不 收敛 。 方 老 旦 由 于 分 类 顺 对 于 样本 分 布 过 于 敏 
感 ， 导 致 在 训练 样本 数 较 少 时 ， 产 生 过 拟 合 。 


Boosting 方 法 站 通过 逐步 聚焦 于 基 分 类 堪 分 错 的 样本 ， 减 小 集成 
分 类 右 的 偏 荤 。Bagging 方 法 则 十 采取 分 而 治之 的 策略 ， 通 过 对 训练 样 
本 多 次 采样 ， 并 分 别 训练 出 多 个 不 同 模型 ， 然 后 做 综合 ， 来 减 小 集成 
分 类 器 的 方 靶 。 假 设 所 有 基 分 类 如 出 错 的 概率 是 独立 的 ， 在 某 个 测试 
样本 上 ， 用 简单 多 数 投票 方法 来 集成 结 采 ， 超 过 半数 基 分 类 右 出 错 的 
概率 会 随 着 基 分 类 右 的 数量 增加 而 下 降 。 


图 12.3 是 Bagging 算 法 的 示意 图 ，Model 1、Model 2、Model 3 都 是 
用 训练 集 的 一 个 子 集训 练 出 来 的 ， 单 独 来 看 ， 它 们 的 决策 边界 都 很 曲 
折 ， 有 过 拟 合 的 倾向 。 集 成 之 后 的 模型 (红线 所 示 ) 的 决策 边界 就 比 
ee 这 是 由 于 集成 的 加 权 投 票 方法 ， 减 小 了 方 


Model | Model 2 
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Feature 2 
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集成 模型 的 决策 边界 


Feature 2 


Feature 2 


Feature | Feature | 


图 12.3 Bagging 算法 的 一 个 示意 图 


里 奥 - 布 雷 曼 


里 奥 . 布 雷 曼 〈Leo Breiman) 是 20 世 纪 著 名 的 统计 学 家 ， 他 是 加 州 大 学 伯克利 分 
校 教授 和 美国 科学 院 院 士 。 他 是 CART 的 发 明 者 之 一 ，Bagging 方 法 和 随机 森林 的 提出 
者 。 虽 然 已 经 于 2005 年 仙 逝 ， 但 他 每 年 的 论文 被 引用 次 数 仍 在 稳步 增长 ， 仅 仅 2017 年 就 
有 一 万 一 千 余 次 引用 ， 可 以 说 他 一 直 活 在 统计 、 机 器 学 习 研 究 者 们 心中 。 

布雷 曼 有 着 传奇 的 一 生 : 


布雷 曼 的 本 科 是 在 以 高 门槛 著称 的 加 州 理工 物理 系 度 过 的 ， 大 一 他 的 成 绩 很 好 ， 
也 拿 到 了 奖学金 。 然 而 大 二 开始 ， 他 对 课程 形 失 了 兴趣 ， 一 直到 大 四 ， 成 绩 一 直 在 及 格 
线 挣扎 。 学 物理 不 成 ， 他 凭借 着 数学 天 赋 ，1954 年 在 加 州 大 学 伯克利 分 校 获 得 了 数学 博 
士 学 位 。 然 而 ， 他 接 下 来 却 并 没有 从 事 学 术 ， 而 且 跑 去 参军 了 。 后 来 他 去 加 州 大 学 洛 杉 
矶 分 校 担任 教 职 ， 直 到 1980 年 又 回 到 伯克利 担任 教授 ， 此 时 离 他 从 伯克利 毕业 ， 已 经 过 


去 了 25 年 。 


最 后 ， 引 用 两 段 布雷 曼 采 退 后 


，1994 年 时 在 伯克利 统计 系 毕业 时 的 讲话 : 


“试问 其 他 学 科 诸如 物理 学 、 数 学 和 工程 学 的 学 生 ，25 年 后 会 和 现在 有 何 区 别 ， 
答案 很 简单 ， 没 啥 区 别 吧 。 上 毕竟 两 和 多 年 前 ， 阿 基 米 德 就 在 研究 物理 、 微 积分 和 工程 ， 


25 年 的 变化 又 算 什么 呢 。 但 迅速 发 展 的 统计 学 不 一 样 ， 谁 也 不 知道 25 年 后 会 是 什么 样 
Fo? 


“事实 上 ， 我 并 没有 学 过 任何 统计 学 的 课程 。 同事 ， 曾 任 斯 坦 福 大 学 
T ARRERA, 他 原本 是 一 位 实验 物理 学 “约翰 :图 基 曾 经 是 研究 
纯 数 学 的 。 乔 治 - 博 克 斯 曾 一 位 化 学 家 。 许多 其 他 杰出 的 统计 学 家 ， 也 是 因缘 际 
会 : 玉 到 统计 学 六 条 a 


一 晃 又 快 过 去 25 年 了 ， 如 今 机 器 学 习 领 域 正 如 文中 当年 的 统计 学 一 样 ， 迅 速 发 
展 、 不 问 出 身 。 如 果 你 对 登 上 这 条 新 船 还 有 上 所 犹豫 的 话 ， 看 看 布雷 曼 他 们 的 例子 ， 或 询 


会 有 共鸣 。 


oe 


fr 


02 ”集成 学 习 的 步骤 和 例子 


场景 描述 


虽然 集成 学 习 的 具体 算法 和 策略 各 不 相同 ， 但 都 共享 同样 的 基本 
步 台 。 本 小 节 硕 户 考 察 读者 对 于 集成 学 习 基 本 步 缀 的 理解 ， 并 布 望 结 
合 具体 的 集成 学 习 算法 ， 详 细 解 读 集成 学 习 的 具体 过 程 。 


知识 点 


集成 学 习 ，Adaboost， 梯 度 提 升 决策 树 


a 集成 学 习 有 哪些 基本 步骤 ? 请 举 几 个 集成 学 习 的 例 


分 析 与 解答 


集成 学 习 一 般 可 分 为 以 下 3 个 步骤 。 


(1) 找到 误差 互相 独立 的 基 分 类 器 。 


(2) 训练 基 分 类 器 。 


MEE: tokio 


合并 基 分 类 器 的 方法 有 voting 和 stacking 两 种 。 前 者 是 用 投票 的 方 
Ly 将 获得 最 多 选票 的 结果 作为 最 终 的 结果 。 。 后 者 是 用 串 行 的 方式 ， 
把 前 一 个 基 分 类 妖 的 结果 输出 到 下 一 个 分 类 器 ， 将 所 有 基 分 类 妖 的 输 
出 结果 相 加 (或 者 用 更 复杂 的 算法 融合 ， 比如 把 各 基 分 类 器 8 的 输出 作 
为 特征 ， 使 用 逻辑 回归 作为 融合 模型 进行 最 后 的 结果 预 测 ) 作为 最 终 
的 输出 。 以 Adaboost 为 例 ， 其 基 分 类 器 的 训练 和 合并 的 基本 步 又 如 
T3 


(1) 确定 基 分 类 器 这 里 可 以 远 取 ID3 决 策 树 作为 基 分 类 器 。 事 
KE, (EM 分 类 模型 都 可 以 作为 基 分 } 类 器， 但 树 形 模 型 由 于 结构 简单 
且 较 易 产 生 随 机 性 所 以 比较 第 用 。 


(2) 训练 基 分 类 器 : 假设 训练 集 为 (x,y), i=1,...N, ae 
{-1,1}， 并 且 有 7T 个 基 分 类 器 ， 则 可 以 按照 如 下 过 程 来 训练 基 分 类 器 


。 初始 化 采样 分 布 Dj(i)=UN; 
。 令 t= 1, 2,...,T 循 环 : 
S MoU a e RRDaAH, KRHA TR 
S, = {x yh i=l, N,. 
HSW EAT RBH, 


ie) 


o Bat 的 错误 率 : l N, | 其 中 中 为 判别 
RAL, 
lag A-8) é,) 
。 计 算 基 分 类 器 h 权 重 é, 


设置 下 一 次 采样 


fe) 


DORK OTE haay; 


= De 


l-8)’ ,hi(%)=y. 


(12.1) 
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(3) 合并 基 分 类 器 : 给 定 一 个 未 知 样本 z， 输 出 分 类 结果 为 加 权 


gamag QO, 


从 Adaboost 的 例子 中 我 们 可 以 明显 地 看 到 Boosting 的 思想 ， 对 分 类 
正确 的 样本 降低 了 权重 ， 对 分 类 错误 的 样本 升 高 或 者 保持 权重 不 变 。 
在 最 后 进行 模型 融合 的 过 程 中 ， 也 根据 错误 率 对 基 分 类 器 进行 加 权 融 
合 。 错 误 率 低 的 分 类 器 拥有 更 大 的 “话语 权 ”。 


男 一 个 非 肖 流行 的 模型 吓 梯 度 提升 决策 树 ， 其 核心 思想 是 ， 每 一 
棵 树 学 的 是 之 前 所 有 树 结论 和 的 残 差 ， 这 个 残 差 束 是 一 个 加 预测 值 后 
能 得 真实 值 的 素 加 量 。 


我 们 以 一 个 视频 网 站 的 用 户 画 像 为 例 ， 为 了 将 广告 定 同 投放 给 指 
定年 龄 的 用 户 ， 视 频 网 站 需要 对 每 个 用 户 的 年 龄 做 出 预测 。 在 这 个 问 
题 中 ， 每 个 样本 是 一 个 已 知性 别 / 年 龄 的 用 户 ， 而 特征 则 包括 这 个 人 访 
问 的 时 长 、 时 段 、 观 看 的 视频 的 类 型 等 。 


例如 用 户 A 的 真实 年 龄 是 25 多 ， 但 第 一 棵 决策 树 的 预测 年 龄 是 22 
罗 ， 壮 了 3 多 ， 即 残 差 为 3。 那 么 在 第 二 棵 树 里 我 们 把 A 的 年龄 设 为 3 岁 
去 学 习 ， 如 果 第 二 棵 树 能 把 A 分 到 3 岁 的 叶子 市 点 ， 那 两 棵 树 的 结果 相 
加 就 可 以 得 到 A 的 真实 年 龄 ， 如 果 第 二 棵 树 的 结论 是 5 岁 ， 则 A 仍然 存 
在 -2 岁 的 残 差 ， 第 三 棵 树 里 A 的 年 岭 就 变 成 -2 图 ， 继 续 学 。 这 里 使 用 
残 差 继续 学 习 ， 职 是 GBDT 中 Gradient Boosted 所 表达 的 意思 。 


03 ” 基 分 类 器 


场景 描述 


基 分 类 屁 的 选择 十 集 成 学 习 主 要 步 又 中 的 第 一 步 ， 也 是 非常 重要 
的 一 步 。 到 故 选 择 什么 样 的 基 分 类 絮 ， 为 什么 很 多 集成 学 习 模型 都 选 
择 决 策 树 作为 基 分 类 右 ， 这 些 都 是 需要 明确 的 问题 ， 做 到 知 其 然 ， 也 
知 其 所 以 然 。 


知识 点 
方 老 - 偶 关 关系 ， 随 机 森林 ， 基 分 类 骨 


问题 常用 的 基 分 类 器 是 什么 ? 


IERE: AN 
分 析 与 解答 


最 常用 的 基 分 类 器 是 决策 树 ， 主 要 有 以 下 3 个 方面 的 原因 。 


(1) 决策 树 可 以 较为 方便 地 将 样本 的 权重 整合 到 训练 过 程 中 ， 而 
不 需要 使 用 过 采样 的 方法 来 调整 样本 权重 。 


(2) 决策 树 的 表达 能 力 和 泛 化 能 力 ， 可 以 通过 调节 树 的 层 数 来 做 
rH o 


(3) 数据 样本 的 扰动 对 于 决策 树 的 影响 较 大 ， 因 此 不 同 子 样本 集 
合生 成 的 决策 树 基 分 类 霹 随 机 性 较 大 ， 这 样 的 “不 稳定 学 习 融 ?更 适合 
作为 基 分 类 右 。 此 外 ， 在 决策 树 世 点 分 裂 的 时 候 ， 随 机 地 选择 一 个 特 
征 子 集 ， 从 中 找 出 最 优 分 挛 属 性 ， 很 好 地 引入 了 随机 性 。 


除了 决策 树 外 ， 神 经 网 络 模型 也 适合 作为 基 分 类 侨 ， 主 要 由 于 神 
经 网 络 模型 也 比较 “不 稳定 ”， 而 且 还 可 以 通过 调整 神经 元 数量 、 连 接 
方式 、 网 络 层 数 、 初 始 权 值 等 方式 引入 随机 性 。 


问题 2 可否 将 随机 森林 中 的 基 分 类 器 ， 由 决策 树 蔡 换 为 
线性 分 类 器 或 K- 近 邻 ? 请 解释 为 什么 ? 


TERE: took teas 
分 析 与 解答 


随机 森林 属于 Bagging 类 的 集成 学 习 。Bagging 的 主要 好 处 是 集成 
后 的 分 类 器 的 方 靶 ， 比 基 分 类 器 的 方 付 小 。Bagging 所 采用 的 基 分 类 
器 ， 最 好 是 本 身 对 样本 分 布 较为 敏感 的 〈 即 所 谓 不 稳定 的 分 类 器 ) ， 
这 样 Bagging 才 能 有 用 武之 地 。 线 性 分 类 器 或 者 K- 近 邻 都 古 较 为 稳定 的 
DRA, KATERAK, MANEKEN RAH Bagging ThE 
在 原 有 基 分 类 器 的 基础 上 获得 更 好 的 表现 ， 甚 至 可 能 因为 Bagging 的 采 
样 ， 而 导致 他 们 在 训练 中 更 难 收敛 ， 从 而 增 大 了 集成 分 类 右 的 偏差 。 


04 ”偏差 与 方差 


场景 描述 


我 们 经 常用 过 拟 合 、 穴 拟 合 来 定性 地 描述 模型 是 否 很 好 地 解决 了 
特定 的 问题 。 从 定量 的 角度 来 说 ， 可 以 用 模型 的 偏差 (Bias) 与 方差 
(Variance) 来 描述 模型 的 性 能 。 集 成 学 习 往往 能 够 “神奇 地 提升 弱 分 
类 占 的 性 能 。 本 市 将 从 偏差 和 方 莽 的 角度 去 解释 这 背后 的 机 理 。 

什么 是 模型 的 偏差 和 方差 ，Boosting 和 Bagging 方 法 与 偏差 和 方差 


的 天 系 是 什么 ， 通 过 问答 这 些 问题 ， 我 们 将 介绍 如 何 根据 偏差 和 方差 
这 两 个 指标 来 指导 模型 的 优化 和 改进 。 


知识 点 
ze, JÆ, HORE, Boosting, Bagging 


问题 什么 是 偏差 和 方差 ? 


IERE: AAA 
分 析 与 解答 


在 有 监督 学 习 中 ， 模 型 的 泛 化 误 关 来 源 于 两 个 方面 一 一 偏 产 和 方 
Ze, BARH N 22 AE SCT T : 


(2 a A ce HBO SB A) A mI RH RI BK h AY AT 
A RAS AS) Sd EPER SK A a h z e A TE ee HP 
RIDT >) BAT PETRA BOT SB , PCOS RRA EET AIK 
PAA, ERIRE EAKA © EB find ie HF OR A TS FE VISIR 
差 上 束 能 体现 出 来 。 


方 壹 指 的 是 由 所 有 采样 得 到 的 大 小 为 mm 的 训练 数据 集训 练 出 的 所 
有 模型 的 输出 的 方 驼 。 方 过 通 间 是 由 于 模型 的 复杂 度 相 对 于 训练 样本 
数 m 过 高 导致 的 ， 比 如 一 共有 100 个 训练 样本 ， 而 我 们 假设 模型 生 阶 数 
不 大 于 200 的 多 项 式 琅 数 。 由 方差 市 来 的 误差 通 第 体现 在 测试 误 莽 相对 
于 训练 误差 的 增 量 上 。 


上 面 的 定义 很 准确 ， 但 不 够 直观 ， 为 了 更 清晰 的 理解 偏差 和 方 
过， 我 们 用 一 个 射击 的 例子 来 进一步 描述 这 二 者 的 区 别 和 联系 。 假 设 
一 次 射击 丈 是 一 个 机 融 学 习 模 型 对 一 个 样本 进行 预测 。 射 中 靶 心 位 置 
代表 预测 准确 ， 偏 离 靶 心 越 远 代表 预测 误 疙 越 大 。 我 们 通过 mn 次 采样 
得 到 n 个 大 小 为 m 的 训练 样本 集合 ， 训 练 出 n 个 模型 ， 对 同一 个 样本 做 
预测 ， 相 当 于 我 们 做 了 mn 次 射击 ， 射 击 结 采 如 独 12.4 所 示 “。 我 们 最 期 户 
的 结 末 束 是 左上 角 的 结果 ， 风 击 结果 叉 准 确 双 集中， 说 明 模 型 的 偏差 
和 方差 都 很 小 ， 右 上 图 虽然 射击 结果 的 中 心 在 误 心 周围 ， 但 分 布 比较 
TE, ULAR BAY tae C/I MELT ERK; 同 理 ， 左 下 图 说 明 模 型 方差 
BU), MÆRK: A PUR RAT AE BOK, ARTE BOK ° 


低 方差 高 方差 


低 偏差 


图 12.4 ”偏差 和 方差 示意 图 


问题 2 如 何 从 减 小 方差 和 偏差 的 角度 解释 Boosting 和 
Bagging 的 原理 ? 


难度 ， 克 交友 交 交 
分 析 与 解答 


简单 回答 这 个 问题 惑 是 : Bagging 能 够 提高 弱 分 类 硕 性 能 的 原因 是 
降低 了 方才 ，Boosting 能 够 提升 弱 分 类 天 性 能 的 原因 十 降低 了 偏 关 。 
为 什么 这 么 讲 呢 ? 


首先 ，Bagging 是 Bootstrap Aggregating 的 简称 ， 意 思 就 是 再 抽 
样 ， 然 后 在 每 个 样本 上 训练 出 来 的 模型 取 平均 。 


ones 方差 记 为 02， 两 两 变量 之 间 的 相关 性 为 p， 
X; 

则 nm 个 随机 变量 的 均值 n 的 方差 为 pka +(1-p)*a n. ENRE 
完全 独立 的 情况 下 ，n 个 随机 变量 的 方差 为 cn， 也 就 是 说 方差 减 小 到 
了 原来 的 1/n。 


再 从 模型 的 角度 理解 这 个 问题 ， 对 n 个 独立 不 相关 的 模型 的 预测 结 
果 取 平均 ， 方 差 是 原来 单个 模型 的 Jn。 这 个 描述 不 其 严谨 ， 但 原理 已 
经 讲 得 很 清楚 了。 当然 ， 模 型 之 间 不 可 能 完全 独立 。 为 了 追求 模型 的 
独立 性 ， 诸 多 Bagging 的 方法 做 了 不 同 的 改进 。 比 如 在 随机 森林 算法 
中 ， 每 次 选取 节点 分 裂 属性 时 ， 会 随机 抽取 一 个 属性 子 集 ， 而 不 是 从 
所 有 属性 中 选取 最 优 属性 ， 这 就 是 为 了 避免 弱 分 类 器 之 间 过 强 的 相关 
性 。 通 过 训练 集 的 重 采 样 也 能 够 带 来 弱 分 类 器 之 间 的 一 定 独 立 性 ， 从 
而 降低 Bagging 后 模型 的 方差 。 


再 看 Boosting， 大 家 应 该 还 记得 Boosting 的 训练 过 程 。 在 训练 好 一 
个 弱 分 类 器 后 ， 我 们 需要 计算 弱 分 类 妖 的 错误 或 者 残 老 ， 作 为 下 一 个 
分 类 器 的 输入 。 这 个 过 程 本 身 就 是 在 不 断 减 小 损失 画 数 ， 来 使 模型 不 
靳 逼近 “ 靶 心 ”， 使 得 模型 偏差 不 断 降 低 。 但 Boosting 的 过 程 并 不 会 显 闭 
降低 方差 。 这 是 因为 Boosting 的 训练 过 程 使 得 各 弱 分 类 絮 之 间 是 强 相 
天 的 ， 缺 乏 独 立 性 ， 所 以 并 不 会 对 降低 方差 有 作用 。 


关于 泛 化 误差 、 偏 产 、 方 过 和 模型 复杂 度 的 关系 如 图 12.5 所 示 。 
不 难看 出 ,方差 和 偏 苇 是 相辅相成 ， 矛 盾 又 统一 的 ， 二 者 并 不 能 完全 
独立 的 存在 。 对 于 给 定 的 学 习 任 务 和 训练 数据 集 ， 我 们 需要 对 模型 的 
复杂 度 做 合理 的 假设 。 MWR RAER, BADAI, El 
ERIRE; WRR ERRI, BAMET, BENEZIR 
高 。 所 以 需要 综合 考虑 偏差 和 方 莽 选择 合适 复 淋 度 的 模型 进行 训练 。 


汉化 误差 


模型 复杂 度 


图 12.5 ZARZ ` ma AMREF RERA 


05 ”梯度 提升 决策 树 的 基本 原理 


场景 描述 


梯度 提升 决策 树 (Gradient Boosting Decision Tree，GBDT) 是 
Boosting 算 法 中 非常 流行 的 模型 ， 也 是 近来 在 机 絮 学 习 苋 赛 、 商 业 应 
用 中 表现 都 非常 优秀 的 模型 。GBDT 非 常 好 地 体现 了 “从 错误 中 学 
习 ” 的 理念 ， 基 于 决策 树 预测 的 残 差 进行 迭代 的 学 习 。GBDT 几 乎 是 算 
法 工程 师 的 必 备 技能 ， 也 是 机 器 学 习 面试 中 常 考察 的 内 容 。 


知识 点 
GBDT, CART 


问题 1 ”GBDT 的 基本 原理 是 什么 ? 


IERE: AAA 
分 析 与 解答 


本 章 第 一 万 提 到 Bagging 和 Boosting 两 大 集成 学 习 的 框架 。 相 比 于 
Bagging 中 各 个 弱 分 类 器 可 以 独立 地 进行 训练 ，Boosting 中 的 弱 分 类 大 
需要 依次 生成 。 在 每 一 轮 欠 代 中 ， 基 于 已 生成 的 弱 分 类 器 集合 ( 即 当 
新 的 弱 分 类 器 会 重点 关注 那些 还 没有 补正 确 预 
测 的 样本 。 


Gradient Boosting 是 Boosting 中 的 一 大 类 算法 ， 其 基本 思想 是 根据 
当前 模型 损失 函数 的 负 梯 度 信息 来 训练 新 加 入 的 弱 分 类 絮 ， 然 后 将 训 
练 好 的 弱 分 类 器 以 办 加 的 形式 结合 到 现 有 模型 中 。 算 法 1 摘 述 了 
Gradient Boosting 算 法 的 基本 流程 ， 在 每 一 轮 迄 代 中 ， 首 先 计算 出 当前 
模型 在 所 有 样本 上 的 负 樟 度 ， 然 后 以 该 值 为 目标 训练 一 个 新 的 弱 分 类 
改进 行 拟 合并 计算 出 该 弱 分 类 狮 的 权重 ， 最 终 实 现 对 模型 的 更 新 。 
Gradient Boosting 算 法 的 伪 代 码 如 图 12.6 所 示 。 


1: F(x)=argmin, $ Lop) 
2: Penei io 
3: s -| | lM, 
OF (x;) F(x)=F, 1(x) 
4: am =argmin,, ae — Bh(x, :ai 
i=l 


N 
S; Pn =argmin, X Ly, F(x,) + ph(x,:a,,)) 
i=l 


6: F, (x)= F(x) + Pp h(x: a,,) 
7: end For 
8: end Algorithm 


图 12.6 Gradient Boosting 算 法 伪 代 码 


采用 决策 树 作 为 弱 分 类 器 的 Gradient Boosting 算 法 被 称 为 GBDT， 
有 时 又 被 称 为 MART (Multiple Additive Regression Tree) 。GBDT 中 使 
用 的 决策 树 通常 为 CART ° 


用 一 个 很 简单 的 例子 来 解释 一 下 GBDT 训 练 的 过 程 ， 如 图 12.7 所 
示 。 模 型 的 任务 是 预测 一 个 人 的 年 龄 ， 训 练 集 只 有 A、B、C、D 4 个 
人 ， 他 们 的 年 龄 分 别 是 14、16、24、26， 特 征 包括 了 “月 购物 金额 上 
网 时 长 ”上 网 历史 ”等 。 下 面 开 始 训练 第 一 棵 树 ， 训 练 的 过 程 跟 传统 决 
策 树 相同 ， 人 简单 起 见 ， 我 们 只 进行 一 次 分 枝 。 训 练 好 第 一 棵 树 后 ， 求 
得 每 个 样本 预测 值 与 真实 值 之 间 的 残 差 。 可 以 看 到 ，A、B、C、DD 的 
残 差分 别 是 -1、1、-1、1。 这 时 我 们 就 用 每 个 样本 的 残 差 训练 下 一 棵 
树 ， 直 到 残 差 收敛 到 某 个 阐 值 以 下 ， 或 者 树 的 总 数 达 到 某 个 上 限 为 
上 o 


I 447i > 1000 


RZ: C=-1, D=1 


494 Ail < 1000 


BRIE: A=-1, B=l 


每 天 上 网 时 长 小 于 1 小 时 


RRA: B=0, D=0 


每 天 上 网 时 长 大 于 1 小 时 


RR: 4=0, C=0 


图 12.7 GBDT 的 一 个 例子 


由 于 GBDT 是 利用 残 震 训练 的 ， 在 预测 的 过 程 中 ， 我 们 也 需要 把 
所 有 树 的 预测 值 加 起 来 ， 得 到 最 终 的 预测 结果 。 


GBDT 使 用 梯度 提升 (Gradient Boosting) EKYN, Wee 
辑 回 归 或 者 神经 网 络 的 训练 过 程 中 往往 采用 梯度 下 降 (Gradient 
Descent) 作为 训练 方法 ， 二 者 之 间 有 什么 联系 和 区 别 吗 ? 


问题 梯度 提升 和 梯度 下 降 的 区 别 和 联系 是 什么 ? 


RE: kN 


分 析 与 解答 


表 12.1 是 梯度 提升 算法 和 梯度 下 降 算 法 的 对 比 情况 。 可 以 发 现 ， 
两 者 都 是 在 每 一 轮 和 迭代 中 ， 利 用 损失 男 数 相 对 于 模型 的 负 梯度 方 癌 的 
信息 来 对 当前 模型 进行 更 新 ， 只 不 过 在 梯度 下 降 中 ， 模 型 是 以 参数 化 


EART, MRA BS nTeey Bi o Mee eet, Re 
型 并 不 需要 进行 参数 化 表示 ， 而 是 直接 定义 在 函数 空间 中 ， 从 而 大 大 
扩展 了 可 以 使 用 的 模型 种 类 。 


表 12.1 梯度 提升 算法 和 梯度 下 降 算 法 的 对 比 


mee | F=F -pVeLles, | L5 IOF) 


ze |S 


问题 3 GBDT 的 优点 和 局 限 性 有 哪些 ? 


MERE: kN 


分 析 与 解答 


m 优点 
(1) 预测 阶段 的 计算 速度 快 ， 树 与 树 之 间 可 并 行 化 计算 。 


(2) 在 分 布 稠密 的 数据 集 上 ， 泛 化 能 力 和 表达 能 力 都 很 好 ， 这 使 
得 GBDT 在 Kaggle 的 众多 竞赛 中 ， 经 常 名 列 榜首 。 

(3) 采用 决策 树 作为 弱 分 类 器 使 得 GBDT 模 型 具有 较 好 的 解释 性 
和 和 鲁 棱 性 ， 能 够 自动 发 现 特征 间 的 高 阶 关 系 ， 并 且 也 不 需要 对 数据 进 
行 特殊 的 预 处 理 如 归 一 化 等 。 


n 局 限 性 


(1) GBDT4E ZEAE EL, ZNO SAL 
经 网 络 。 


(2) GBDT 在 处 理 文本 分 类 特征 问题 上 ， 相 对 其 他 模型 的 优势 不 
如 它 在 处 理 数值 特征 时 明显 。 


(3) 训练 过 程 需要 串 行 训 练 ， 只 能 在 决策 树 内 部 采用 一 些 局 部 并 
行 的 手段 提高 训练 速度 。 


06 XGBoost 与 GBDT 的 联系 和 区 别 


场景 描述 


XGBoost 十 陈 天 奇 等 人 开发 的 一 个 开源 机 器 学 习 项 目 ， 高 效 地 实 
现 了 GBDT 算 法 并 进行 了 算法 和 工程 上 的 许多 改进 ， 被 广泛 应 用 在 
Kaggle 芝 赛 及 其 他 许多 机 器 学 习 疯 赛 中 并 取得 了 不 错 的 成 绩 。 我 们 在 
使 用 XGBoost 平 台 的 时 候 ， 也 需要 熟悉 XGBoost 平 台 的 内 部 实现 和 原 
这 样 才 能 够 更 好 地 进行 模型 调 参 并 针对 特定 业务 场景 进行 模型 改 
TE 


知识 点 
XGBoost，GBDT， 决 策 树 


问题 XGBoost 与 GBDT 的 联系 和 区 别 有 哪 些 ? 


MERE: eo seo 
分 析 与 解答 
原始 的 GBDT 算 法 基于 经 验 损失 函数 的 负 梯 度 来 构造 新 的 决策 


树 ， 只 是 在 决策 树 构 建 完成 后 再 进行 况 枝 。 而 XGBoost 在 决策 树 构建 
BBA TEND, BE 


L= DOF (x,)+ (xX) + 277,) 


(12.2) 


其 中 Fi_j(xi) 表 示 现 有 的 -1 模 树 最 优 解 。 关 于 树 结构 的 正则 项 定义 为 
QF,) = AIM 


(12.3) 


ELPTAM PTTL, wae STL RATE © SARR K 
数 在 F,_j 处 进行 二 阶 泰勒 展开 可 以 推导 出 


Lal = -$ Gm, +5 +=, +A)w; Jerr 


J 


(12.4) 
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H; = was Wy, F (x; )) — + 、 
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合 。 


假设 决策 树 的 结构 已 知 ， 通 过 令 损 失 函 数 相对 于 wj 的 导数 为 0 可 以 
求 出 在 最 小 化 损失 函数 的 情况 下 各 个 叶子 市 点 上 的 预测 值 


(12.5) 


然而 从 所 有 的 树 结构 中 寻找 最 优 的 树 结 构 是 一 个 NP-hard 问 题 ， 因 
此 在 实际 中 往往 洒 用 贫 心 法 来 构建 出 一 个 次 优 的 树 结 构 ， 基 本 思想 十 
从 根 节 点 开 始 ， 每 次 对 一 个 叶子 市 点 进行 分 灾 ， 针 对 每 一 种 可 能 的 分 
裂 ， 根 据 特定 的 准则 选取 最 优 的 分 神 。 不 同 的 决 岳 树 算法 采用 不 同 的 
准则 |， 如 IC3 算 法 采用 信息 增益 ，C4.5 泪 法 为 了 克服 信息 增益 中 容易 偏 


ray ER (BL EE Ti ORF SMG, CARTRE E EE FR 
方 误差 ，XGBoost 也 有 特定 的 准则 来 选取 最 优 分 裂 。 


通过 将 预测 值 代 入 到 损失 函数 中 可 求 得 损失 函数 的 最 小 值 


Č =- +yT 
24H, +A 
(12.6) 
容易 计算 出 分 裂 前 后 损失 函数 的 差 值 为 
Gain < Ct, _Ga___§ Ct _ 
H, +a H,+A H, +Hr+4 
(12.7) 


XGBoost 末 用 最 大 化 这 个 差 值 作为 准则 来 进行 决策 树 的 构建 ， 通 
过 所 历 所 有 特征 的 所 有 取 值 ， 寻 找 使 得 损失 函数 前 后 相差 最 大 时 对 应 
的 分 窑 方 式 。 此 外 ， 由 于 损失 函数 前 后 存在 半 值 一 定 为 正 的 限制 ， 此 
EERI TREATY BOAR 。 


除了 算法 上 与 传统 的 GBDT 有 一 些 不 同 外 ，XGBoost 还 在 工程 实现 
ate o 总 的 来 说 ， 两 者 之 间 的 区 别 和 联系 可 以 总 结 成 以 
下 几 个 方面 。 


(1) GBDT 是 机 器 学 习 算 法 ，XGBoost 是 该 算法 的 工程 实现 。 


(2) 在 使 用 CART 作 为 基 分 类 器 时 ，XGBoost 显 式 地 加 入 了 正则 
项 来 控制 模型 的 复杂 度 ， 有 利于 防止 过 拟 合 ， 从 而 提高 模型 的 泛 化 能 
力 o 


(3) GBDT 在 模型 训练 时 只 使 用 了 代价 函数 的 一 阶 导数 信息 ， 
XGBoost 对 代价 函数 进行 二 阶 泰勒 展开 ， 可 以 同时 使 用 一 阶 和 二 阶 寻 
数 。 


(4) 传统 的 GBDT 采 用 CART 作 为 基 分 类 器 ， XGBoost 支 持 多 种 
类 型 的 基 分 类 器 ， 比 如 线性 分 类 器 。 


(5) 传统 的 GBDT 在 每 轮 送 代 时 使 用 全 部 的 数据 ，XGBoost 则 采 
用 了 与 随机 森林 相似 的 策略 ， 支 持 对 数据 进行 采样 


(6) 传统 的 GBDT 没 有 设计 对 缺失 值 进行 处 理 ，XGBoost 能 够 自 
动 学 习 出 缺失 值 的 处 理 策略 。 


机 器 学 习 竞 赛 平台 Kaggle 的 前 世 今 生 


XGBoost 的 火热 与 Kaggle 的 机 器 学 习 竞赛 是 分 不 的 ， 正 是 在 各 类 竞赛 中 突出 的 
表现 ， LEXGBoost BR AAE Re TT EY ae 学 习 框 架 ， 借 此 机 会 我 们 也 向 大 家 介绍 一 下 
Kaggle 的 前 世 今 生 


Kaggle 是 全 球 机 器 学 习 竞赛 、 开 放 数 据 集 和 数据 科学 合作 的 发 源 地 ， 也 是 当今 最 
著名 最 火热 的 机 器 学 习 竞 赛 平台 。 在 被 谷歌 收购 之 后 ，Kaggle 的 知名 度 和 用 户 数 不 断 攀 
Ht, 已 经 跨 过 了 百 万 用 户 的 大 关 ， 进 一 步 巩 固 了 它 在 数据 科学 界 家 喻 户 晓 的 地 位 。 


“英雄 起 于 陡 陌 ， 壮 士 拔 于 行伍 >”，Kaggle 也 不 是 平地 惊雷 般 出 现 的 ， 而 是 起 于 创 
始 人 一 个 非常 朴素 的 想法 。2010 年 ， 就 职 \ 于 澳 大 利 亚 财 政 部 的 Anthony Goldbloom 对 他 
当前 的 工作 略 感 失望 ， 他 的 主要 工作 是 预测 GDP、 通 货 脱 胀 和 失业 ， 但 传统 的 经 济 数据 
规模 很 小 而 且 噪 声 很 大 ， 所 以 很 难得 出 有 趣 的 发 现 。 为 了 获得 更 有 趣 的 数据 集 和 问题 ， 
Anthony 利 用 业余 时 间 构 建 了 Kaggle， 这 个 日 后 最 火热 的 机 器 学 习 竞 赛 平台 就 这 样 诞生 
Te 


aL 


和 最 初 的 愿景 有 所 不 同 ，Kaggle 的 发 展 有 些 ee ee 本 来 只 想 收 集 

一 些 有 趣 的 问题 和 数据 供 目 己 研 究 ， 但 随 着 越 来 越 多 的 大 神 加 入 ，Anthony 发 现 自己 无 
论 如 何 也 做 不 了 那么 好 。 既 然 如 此 ，Anthony 索 性 致力 于 社区 的 发 展 ， 期 望 让 Kaggle 成 
eae 个 充满 活力 的 代码 、 数 据 和 讨论 的 生态 系统 。 也 正 是 这 样 的 改变 ， 让 Kaggle 注 入 了 
放 的 基因 。 


时 至 今日 ，Kaggle 已 经 成 Google AI 生态 中 不 可 或 缺 的 一 环 ，Anthony 在 回顾 自 
己 创 业经 历 的 时 候 ， 说 了 两 点 建议 。 一 是 ， 去 解决 那 上 你 自己 有 切身 体会 ， 并 且 觉 得 其 
也 人 也 正经 历 ， 而 且 还 没有 被 解决 的 问题 ， 二 是 ， 你 要 对 这 个 问题 充满 热情 。 


不 过 笔者 还 是 要 说 , “时 势 造 英 雄 啊 "，Kaggle 正 是 在 “Ka 
来 的 。 祝 各 位 创业 者 在 有 激情 ， 能 够 解决 痛 点 的 同时 ， 还 有 一 个 好 的 运 
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第 13 章 ”生成 式 对 抗 网 络 


2014 年 的 一 天 ，Ian Goodfellow 与 好 友 相 约 到 酒吧 。 平 日 工作 压力 
大 ， 脑 细胞 已 耗 尽 了 创作 激情 ， 在 酒吧 的 片刻 放松 使 他 想到 一 个 绝妙 
的 学 术 点 子 ， 那 之 后 就 有 了 生成 式 对 抗 网 络 的 传说。 生成 式 对 抗 网 
2h E Generative Adversarial Networks， 人 简称 GANs， 是 一 个 训 
练 生 成 模型 的 新 框架 。GANs 刚 提出 时 没有 了 星 湿 的 数学 推演 ， 描 绘 的 
是 一 幅 动 感 十 足 的 画面 ， 恰 好 契合 了 东方 哲学 中 的 太极 图 一 一 万 物 在 
相生 相 元 中 演化 。 把 GANs 想 象 成 一 幅 太 极 图 ,， “ARE RI, “两 
仪 ” 好 比 生成 恬 和 判别 絮 ， 生 成 器 负责 生 ， 判 别 絮 负责 炙 ， 一 生 一 火 间 
有 了 万 物 。 生 成 恤 在 初始 混沌 中 孕育 有 形 万 物 ， 判 别 右 甄别 过 滤 有 形 
万 物 ， 扮 演 一 种 末日 审判 的 角色 。GANs 目 提出 之 日 起 ， 迅 速 风 靡 深 
度 学 习 的 各 个 角落 ，GANs 的 变种 更 是 雨后春笋 般 进 入 人 们 的 视野 ， 
诸如 WGAN ` InfoGAN ` f-GANs ` BiGAN ` DCGAN ` IRGANẸ œ 
GANSs 之 火 ， 束 连 初 入 深度 学 习 的 新 手 都 能 略 说 一 二 。 


01 初 识 GANs 的 秘密 


场景 描述 


2014 年 来 自 加 拿 大 蒙特 利 尔 大 学 的 年 轻 博 士 生 Ian Goodfellow 和 他 
的 导师 Yoshua Bengio 提 出 一 个 叫 GANs 的 模型 B44。Facebook AI 实 验 室 
主任 Yann LeCun 称 该 模型 是 机 需 学 习 领 域 近 十 年 最 具 创 意 的 想法 。 把 
GANs 想 象 成 造假 币 者 与 警察 间 展 开 的 一 场 猫 捉 老 姐 游 戏 ， 造 假币 者 
试图 造 出 以 假 乱 真 的 假币 ， 和 警察 试图 发 现 这 些 假币 ， 对 抗 使 二 者 的 水 
平 都 得 到 提高 。 从 造假 币 到 合成 模拟 图 片 ， 道 理 是 一 样 的 。 下 面 关于 
GANs， 从 基础 理论 到 具体 模型 ， 再 到 实验 设计 ， 我 们 依次 思考 如 下 
儿 个 问题 。 


知识 所 


MiniMax 游 戏 ， 值 函数 (Value Function) ，JS 距 离 。 (Jensen- 
Shannon Divergence) ， 概 率 生 成 模型 ， 优 化 饱和 


问题 1 简 述 GANs 的 基本 思想 和 训 | 经 过 程 有 


RE: KAAN 


分 析 与 解答 


GANs 的 主要 框架 如 图 13.1 所 示 ， 包 括 生成 器 (Generator) 和 判别 
器 (Discriminator) 两 个 部 分 。 其 中 ， 生 成 器 用 于 合成 * 假 ?" 样 本， 判别 
器 用 于 判断 输入 的 样本 是 真实 的 还 是 合成 的 。 有 具体 来 说 ， 生 成 器 从 先 


验 分 布 中 采 得 随机 信和 号， 经 过 神经 网 络 的 变换 ， 得 到 模拟 样本 ;判别 
妖 既 接收 来 目 生 成 侨 的 模拟 样本 ， 也 接收 来 目 实 际 数据 集 的 真实 样 
本 ， 但 我 们 并 不 告诉 判别 侨 样本 来 源 ， 需 要 它 目 己 判 断 。 生 成 硕 和 判 
别 亏 是 一 对 “和 锡 家 ”， 置 号 于 对 抗 环境 中 ， 生 成 名 尽 可 能 造 出 样本 迷惑 
判别 占 ， 而 判别 器 则 尽 可 能 识别 出 来 目 生 成 右 的 样本 。 然 而 ， 对 抗 不 
是 目的 ， 在 对 抗 中 让 双方 能 力 各 有 所 长 才 是 目的 。 理 想 情 况 下 ， 生 成 
eee 双方 部 红 于 完美 ， 彼 此 都 没有 更 进 
一 步 的 空间 。 


图 13.1 GANs 模 型 的 框架 图 


GANs 采 用 对 抗 策 上 略 进 行 模型 训练 ， 一 方面 ， 生 成 妖 通 过 调 广 目 
号 参数 ， 使 得 其 生成 的 样本 尽量 难以 被 判别 器 识别 出 十 真实 样本 还 是 
模拟 样本 ， 男 一 方面 ， 判 别 右 通过 调 市 目 喘 参数 ， 使 得 其 能 尽 可 能 准 
确 地 判别 出 输入 样本 的 来 源 。 具 体 训 练 时 ， 采 用 生成 器 和 判别 器 交替 
优化 的 方式 。 


(1) 在 训练 判别 器 时 ， 先 固定 生成 器 G(-); 然后 利用 生成 器 随机 
模拟 产生 样本 G(z) 作 为 负 样 本 (z 是 一 个 随机 向 量 ) ， 并 从 真实 数据 集 
中 采样 获得 正 样本 X， 将 这 些 正人 负 样 本 输入 到 判别 器 DC) 中 ， 根 据 判别 
器 的 输出 ( 即 D0X) 或 D(G(z))) 和 样本 标签 来 计算 误差 ， 最 后 利用 误差 
有 反 向 传播 算法 来 更 新 判别 妖 D(-) 的 参数 ， 如 图 13.2 所 示 。 


图 13.2 GANs# All asH VIER 


(2) 在 训练 生成 器 时 ， 先 固定 判别 器 D(); 然后 利用 当前 生成 器 
G(-) 随 机 模拟 产生 样本 G(z)， 并 输入 到 判别 如 D(-) 中 ; 根据 判别 器 的 输 
出 D(G(z)) 和 样本 标签 来 计算 误差 ， 最 后 利用 误 奔 反 癌 传 播 算法 来 更 狐 
生成 右 G(-) 的 参数 ， 如 图 13.3 所 示 。 


图 13.3 GANs 中 生成 器 的 训练 


问题 GANSKA Š ° 


难度 : tok sek 


GANs 是 一 个 双人 MiniMax 游 戏 ， 请 给 出 游戏 的 值 函数 。 理 想 情 况 
下 游戏 最 终 会 达到 一 个 纳什 均衡 点 ， 此 时 记 生 成 器 为 G"， 判 别 器 为 
D”"， 请 给 出 此 时 的 解 (G* D) ， 以 及 对 应 的 值 函数 的 取 值 。 在 未 达 
到 均衡 点 时 ， 将 生成 器 G 固 定 ， 寻 找 当 下 最 优 的 判别 器 Do”"， 请 给 出 
Do 和 此 时 的 值 画 数 。 上 述 问题 的 答案 在 Goodfellow 的 论文 中 都 有 回 
答 ， 进 一 步 地 ， 倘 车 固 定 DD 而 将 G 优 化 到 底 ， 那 么 解 Gp” 和 此 时 的 值 函 
数 又 揭示 出 什么 呢 ? 


分 析 与 解答 


因为 判别 辟 D 试 图 识别 实际 数据 为 真实 样本 ， 识 别 生 成 囊 生 成 的 
数据 为 模拟 样本 ， 所 以 这 是 一 个 二 分 类 问题 ， 损 失 函 数 写成 Negative 
Log-Likelihood， 也 称 Categorical Cross-Entropy Loss, BẸ: 


L(D) = —[p(x) | p(data|x) log D(x) + p(g|x) log(1— D(x))] de 
(13.1) 


其 中 D(x) 表 示 判 别 器 预测 x 为 真实 样本 的 概率 ，p(datalx) 和 p(g|x) 表 示 x 
分 属 真实 数据 集 和 生成 器 这 两 类 的 概率 。 样 本 x 的 来 源 一 半 是 实际 数据 
集 ， 一 半 是 生成 器 ，P(data) =P,.(g)=0.5。 我 们 用 

Pana (X) = p(Xldata) 表 示 从 实际 数据 集 得 到 x 的 概率 ，Ps 0) = P(xlg) 表 
示 从 生成 器 得 到 x 的 概率 ， 有 x 的 总 概率 


P(X) = pu (data) p(x\data) + P (8)p(xle). 


(13.2) 


PREY (13.1) 中 的 p(x)p(datalx) 为 psre(data)paara(x)， 以 及 p(x)p(g|x) 为 
psrc(9)puc0， 即 可 得 到 最 终 的 目标 函数 


LD) =— (Bllog DOE, p llog- POND 


(13.3) 
在 此 基础 上 得 到 值 函 数 


V(G,D) = EB, pun llog DO + E, p w loga -Da 


(13.4) 


FA! ae DIK (CE ltl Ex BX, 生成 器 G 则 最 小 化 它 ， 整 个 MiniMax 游 戏 
( 见 图 13.4) 可 表示 为 : 叹 nm8 7 02) 。 


图 13.4 MiniMax 对 抗 式 游戏 


训练 中 ， 给 定 生成 器 G， 寻 找 当 下 最 优 判 别 器 De 。 对 于 单个 样本 
最 大 化 maxPanCDlogDCO+ 瑚 COiogd-DOD) 的 g y 
D(x) = Pana Œ) / LPa (+ ps(x)] 外 面 套 上 对 x 的 积分 就 得 到 maxF(G,D) 
， 解 由 单 点 变 成 一 个 函数 解 


D =á Paata 
Paata + P, ; 


(13.5) 


此 时 ， 双 mnFCC, Do)=minfrlog4+2"73SP(UPaullPs)}， 其 中 JSDC) 是 JS 距 
离 。 由 此 看 出 ， 优 化 生成 器 G 实 际 是 在 最 小 化 生成 样本 分 布 与 真实 样 


本 分 布 的 JS 距 离 。 最 终 ， 达 到 的 均衡 点 是 Dl(pam PAME, BE 


pe=Paataly » JSD( paw || PAY Bl] : 最 优 解 G (z) =X ~ Dania (x), wD (x)= = — 
(EEK RY (G ,D )=-log4。 


进一步 地 ， 训 练 时 如 采 给 定 D 求 解 最 优 G， 可 以 得 到 什么 ? 不 妨 假 
设 G' 表 示 前 一 步 的 生成 器 ，D 是 G' 下 的 最 优 判别 器 2e。 那 么 ， 求 解 最 
优 G 的 过 程 为 


* 3 Puata + Pg 
argmin V(G, Dg) = arg min KL psl| —KL(p,l|p,) 


(13.6) 
由 此 ， 可 以 得 出 以 下 两 点 结论 。 


(1) 优化 G 的 过 程 是 让 G 远 一 步 的 G， 同 时 接近 分 布 
(Pasta +Pe')/2。 


(2) 达到 均衡 点 时 Pg = Pian, 有 Da)=argmind 如 果 
用 这 时 的 判别 右 去 训练 一 个 全 新 的 生成 器 G o, 理论 上 可 能 蛤 也 训练 
不 出 来 。 


问题 3 GANs 如 何 避 开 大 量 概率 推断 计算 ? 


MEE: tok 


发 明 GANs 的 初衷 是 为 了 更 好 地 解决 概率 生成 模型 的 佑 计 问 题 。 
传统 概率 生成 模型 方法 (如 :马尔 可 夫 随 机 场 、 贝 叶 斯 网 络 ) 会 涉及 
大 量 难以 完成 的 概率 推断 计算 ，GANs 是 如 何 避 开 这 类 计算 的 ? 


分 析 与 解答 


传统 概率 生成 模型 要 定义 一 个 概率 分 布 表 达 式 P(X)， 通 常 是 一 个 
多 变量 联合 概率 分 布 的 密度 函数 p(Xi,X,,…,Xw)， 并 基于 此 做 最 大 似 然 
估计 。 这 过 程 少 不 了 概率 推 新 计算 ， 比 如 计算 边 绿 概率 P(XZ)、 条 件 概 
率 P(Xi|Xj) 以 及 作 分 母 的 Partition Function 等 。 当 随机 变量 很 多 上 时， 概率 
模型 会 变 得 十 分 复杂 ， 概 率 计 算 变 得 非常 困难 ， 即 使 做 近似 计算 ， 效 
果 常 不 尽 人 意 。GANs 在 刻画 概率 生成 模型 时 ， 并 不 对 概率 密度 函数 
p(2) 直 接 建 模 ， 而 是 通过 制造 样本 x， 间 接 体现 出 分 布 p(X)， 束 是 说 我 
们 看 不 到 p(X) 的 一 个 表达 式 。 那 么 怎么 做 呢 ? 


如 有 果 随 机 变量 Z 和 X 之 间 满 足 某 种 映射 关系 X=fZ)， 那 么 它们 的 概 
率 分 布 px( 阅 和 pz(Z) 也 存在 某 种 映射 关系 。 当 QZ, 工 < 部 是 一 维 随机 变量 
df(Z) 


_df(Z 
m, D ax “7?;， 当 2Z,X 是 高 维 随机 变量 时 ， 导 数 变 成 雅克 比 和 矩阵 ， 
即 px=J pz ° 因此， 已 知 Z 的 分 布 ， 我 们 对 随机 变量 间 的 转换 画 数 /直接 
建 模 ， 就 唯一 确定 了 X 的 分 布 。 


这 样 ， 不 仅 避 开 大 量 复杂 的 概率 计算 ， 而 且 给 厦大 的 发 挥 空间 ， 
我 们 可 以 用 神经 网 络 来 训练 f。 近 些 年 神经 网 络 领域 大 踏步 癌 前 发 展 ， 
请 现 出 一 批 新 技术 来 优化 网 络 结构 ， 除 了 经 典 的 卷 积 神经 网 络 和 循环 
神经 网 络 ， 还 有 ReLu 油 活 画 数 、 批 量 归 一 化 、Dropout 等 ， 都 可 以 目 
由 地 添加 到 生成 右 的 网 络 中 ， 大 大 增强 生成 右 的 表达 能 力 。 


问题 4 GANs 在 实际 训练 中 会 遇 到 什么 问题 ? 


MEE: 妈妈 女友 六 


实验 中 训练 GANs 会 像 撕 述 的 那么 完美 吗 ? 最 小 化 目标 函数 
Bopo logd -D(C(z;6s)) 求 解 G 会 遇 到 什么 问题 ? 你 有 何 解决 方案 ? 


解答 与 分 析 


在 实际 训练 中 ， 早 期 阶段 生成 器 G 很 差 ， 生 成 的 模拟 样本 很 容易 
被 判别 器 D 识 别 ， 使 得 D 回 传 给 G 的 梯度 极其 小 ， 达 不 到 训练 目的 ， 这 
个 现象 称 为 优化 饱和 中。 为 什么 会 这 样 呢 ? 我们 将 D 的 Sigmoid 输 出 层 
的 前 一 层 记 为 o， 那 么 D(x) 可 表示 成 D(x)=Sigmoid(o(x))， 此 时 有 


VD(x) = VSigmoid(o(x)) = D(x)(1- D(x))Vo(x), 
(13.7) 
因此 训练 G 的 梯度 为 
Vlog(1— D(G(z;0,)) =—D(G(z;0,)Vo(G(z;0,)). 
(13.8) 


当 DD 很 容易 认 出 模拟 样本 时 ， 意 味 着 认错 模拟 样本 的 概率 几乎 为 零 ， 
BPP(CGE8,)) = 0 o 假定 Vo(G(z;0.)KC，C 为 一 个 常量 ， 则 可 推出 


lim Vlog(l-D(G(z;8,))=- lm ©D(G(z;0.,))Vo(G(z;0.,)) 


D(G(z;06)—0 D(G(z;g。)) 一 0 
= 0. 
(13.9) 
故 G 获 得 的 梯度 基本 为 零 ， 这 说 明 D 强 大 后 对 G 的 帮助 反而 微乎其微 。 


怎么 办 呢 ? 解决 方案 是 将 lo8(Q — DCE: 0, Dyle), H 
式 上 有 一 个 人 负 和 号 的 差别 ， 故 让 后 者 最 大 等 效 于 让 前 者 最 小 ， 二 者 在 最 
优 时 解 相同 。 我 们 看 看 更 改 后 的 目标 函数 有 什么 样 的 梯度 : 


Vlog(D(G(z;0,)))= (1-D(G(z;0,)))Vo(G(z;0.,)), 


(13.10) 
lim _Vlog(D(G(z;6, ))) = Vo(G(z; 9, )), 


D(G(z;0, ))+0 


(13.11) 


EI D(G(z;6, FE, Vogel: ib RAYA, EAER 
提供 有 效 的 梯度 。 


02 WGAN: 抓 住 低 维 的 幽灵 


场景 描述 


看 过 《三 体 必 .死神 永生 》 的 朋友 ， 一 定 听 说 过 “ 降 维 打击 ”这 个 
tl], AAA CHEATER Jm co ES, RED UG ARIA © 
想象 猫 和 老鼠 这 部 动画 的 一 个 镜头 ， 老 鼠 Jerry 被 它 的 劲敌 Tom 狂 一 路 
追赶 ， 突 然 Jerry 发 现 墙 上 挂 了 很 多 照片 ， 其 中 一 张 的 背景 是 海边 浴 
场 ， 沙 滩 上 有 密密麻麻 很 多 人 ，Jerry 一 下 子 跳 了 进去 ， 混 在 人 群 中 消 
失 了 ，Tom 怎 么 也 找 不 到 Jerry。 三 维 的 Jerry 变 成 了 一 个 二 维 的 Jerry， 
IRT T Tom 。 一 个 新 的 问题 是 : Jerry 对 于 原 三 维 世 界 来 说 是 否 还 存 
在 ? 极限 情况 下 ， 如 果 这 张 照 厂 足 够 薄 ， 没 有 厚度 ， 那 么 它 就 在 一 个 
二 维 平 面 里 ， 不 占 任何 体积 ( 见 图 13.5) ， 体 积 为 零 的 东西 不 就 等 于 
没有 吗 ! 拓展 到 高 维 空间 ， 这 个 体积 叫 测度 ， 无 论 N 维 空间 的 N 有 多 
大 ， 在 N+1 维 空间 中 测度 就 是 零 ， 就 像 二 维 平面 在 三 维 空间 中 一 样 。 
因此 ， 一 个 低 维 空间 的 物体 ， 在 高 维 空间 中 忽略 不 计 。 对 生活 在 高 维 
世界 的 人 来 说 ， 低 维 空间 是 那么 无 足 轻 重 ， 像 一 层 纱 ， 似 一 个 幽灵 ， 
若 有 若 无 ， 是 一 个 隐 去 的 世界 。 


图 13.5 ”二 维 画 面 与 三 维 空间 


2017 年 ， 一 个 训练 生成 对 抗 网 络 的 新 方法 WGAN 被 提出 B4 。 在 此 
之 前 ，GANS 已 提出 三 年 ， 吸 引 了 很 多 研究 者 来 使 用 它 。 原 理 上 ， 大 
家 都 觉得 GANs 的 思路 实在 太 巧 妙 ， 理 解 起 来 也 不 复杂 ， 人 符合 人 们 的 
直觉 ， 万 物 不 都 是 在 相互 制约 和 对 抗 中 逐渐 演化 升级 吗 。 理 论 上 ， 
Goodfellow 在 2014 年 已 经 给 出 GANs 的 最 优 性 证 明 ， 证 明 GANSs 本 质 上 
是 在 最 小 化 生成 分 布 与 真实 数据 分 布 的 JS 距离 ， 当 算法 收敛 时 生成 器 
刻画 的 分 布 就 是 真实 数据 的 分 布 。 但 是 ， 实 际 使 用 中 发 现 很 多 解释 不 
清 的 问题 ， 生 成 器 的 训练 很 不 稳定 S31。 生 成 器 这 只 Tom 猫 ， 很 难 抓 住 
真实 数据 分 布 这 只 老鼠 Jerry。 


知识 点 


FHEART (Collapse Mode) ，Wasserstein 距 离 ，1-Lipschitz 函 数 


问题 1 GANs 的 陷阱 : 原 GANs 中 存在 的 哪些 问题 制约 模 
型 训练 效果 。 


MEE: teks 


分 析 与 解答 


GANs 的 判别 器 试图 区 分 真实 样本 和 生成 的 模拟 样本 。Goodfellow 
在 论文 中 指出 ， 训 练 判别 器 ， 是 在 度量 生成 如 分 布 和 真实 数据 分 布 的 
JS 距离 ;训练 生成 萌 ， 是 在 减 小 这 个 JS 距离 。 即 使 我 们 不 清楚 形成 真 
实数 据 的 背后 机 制 ， 还 古 可 以 用 一 个 模拟 生成 过 程 去 兰 代 之 ， 只 要 它 
们 的 数据 分 布 一 致 。 


但 是 实验 中 发 现 ， 训 练 好 生成 句 是 一 件 很 困难 的 事 ， 生 成 秦 很 不 
稳定 ， 常 出 现 雪 缩 模式 。 什 么 是 地 缩 模式 ? 拿 图 片 举例 ， 反 复生 成 一 


些 相 近 或 相同 的 图 片 ， 多 样 性 太 差 。 生 成 器 似乎 将 图 片 记 下 ， 没 有 泛 
化 ， 更 没有 造 新 图 的 能 力 ， 好 比 一 个 符 小 孩 被 填 鸭 灌输 了 知识 ， 只 会 
死记 人 硬 背 ， 没 有 真正 理解 ， 不 会 活 学 活用 ， 更 无 创新 能 


为 什么 会 这 样 ? 既然 训练 生成 器 基于 JS 距 离 ， 猜 测 问题 根源 可 能 
与 JS 距离 有 关 。 高 维 空间 中 不 是 每 点 都 能 表达 一 个 样本 (如 一 张 图 
片 ) ， 空 间 大 部 分 是 多 余 的 ， 真 实数 据 里 缩 在 低 维 子 空间 的 流 形 ( 即 
高 维 曲 面 ) 上 ， 因 为 维度 低 ， 所 占 空间 体积 几乎 为 零 ， 就 像 一 张 极 其 
洲 的 纸 球 在 三 维 空间 ， 不 仔细 看 很 难 发 现 。 考 虑 生成 器 分 布 与 真实 数 
据 分 布 的 JS 距离 ， 即 两 个 KL 距 离 的 平均 : 


1 P. +P P.+P 
ISP, IP.) = 5] KL] P, I- = |+KL] P, || z = Iis 


(13.12) 


RERA, ATEA Meet, SEn MERER, A 
UA Ue EE RERA, A DEREZE e FT ELT, 
ERRA AERES, “兵力 ”有 限 ， 网 布 得 越 大 ， 每 个 点 
附近 的 兵力 束 越 少 。 想 象 一 下 ， 当 这 张 网 罕 过 低 维 子 空间 时 ， 可 看 见 
的 “ 兵 ” 几 乎 为 零 ， 这 片子 空间 成 了 一 个 “盲区 ”*， 如 采 真 实数 据 全 都 分 
布 在 这 ， 它 们 就 对 生成 器 “隐身 ”了 ， 成 了 “漏网 之 鱼 ”( 见 图 13.6) 


回 到 公式 ， 看 第 一 个 KL 距 离 : 


P.+P, = Dp, (x) 
Kefe j |- flog [ae @+p,@! ij dux). 
(13.13) 


高 维 空间 绝 大 部 分 地 方 见 不 到 真实 数据 ，p,(x) 处 处 为 零 ， 对 KL 距离 的 
贡献 为 零 ， 即 使 在 真实 数据 贱 缩 的 低 维 空间 ， 高 维 空间 会 忽略 低 维 空 
间 的 体积 ， 概 率 上 讲 测度 为 零 。KL 距 离 就 成 了 ，jog2* 妃 COdwCO =log2 


再 看 第 二 个 KL 距离 : 


ea jn) fog} Pe — |p, (pd. 
n a (p,(x)+ p, ))/2]) 


(13.14) 


同 理 KL 距离 也 为 ，|1082* pp @du(x)=log2 。 因 此 ，JS 距 离 为 log 2. 
一 个 常量 。 无 论 生 成 器 怎么 “ 布 网 >， 怎么 训练 ，JS 距 离 不 变 ， 对 生成 
佛 的 梯度 为 零 。 训 练 神经 网 络 是 基于 梯度 下 降 的 ， 用 梯度 一 次 次 更 狐 
模型 参数 ， 如 果 梯 度 总 是 零 ， 训 练 还 怎么 进行 ? 


问题 2 ”破解 武器 : WGAN 针 对 前 面 问题 做 了 哪些 改进 ? 
什么 是 Wasserstein 距 离 ? 


难度 : tek kek 


分 析 与 解答 


直 氏 告诉 我 们 不 要 让 生成 器 在 高 维 空间 傻 傻 地 布 网 ， 让 它 直接 
到 低 维 空间 * 抓 ”真实 数据 。 道 理 虽 然 是 这 样 ， 但 是 在 高 维 空间 中 藏 着 


无 数 的 低 维 子 空间 ， 如 何 找到 目标 子 空间 呢 ? EKREM, TAK 
周 ， 你 可 以 迅速 定位 远 处 的 山 灾 和 高 塔 ， 却 很 难 知 晓 一 个 个 楼 宇 间 办 
公 室 里 的 事情 。 你 需要 线索 ， 而 不 是 简单 撒 网 。 处 在 高 维 空 间 ， 对 抗 
隐秘 的 低 维 空间 ， 不 能 再 用 粗 骏 简陋 的 方法 ， 需 要 有 特殊 武 句 ， 这 了 束 
是 Wasserstein 距离 ( 见 图 13.7) ， 也 称 推土机 距离 (Earth Mover 
distance) 


WP,P,)= inf By.,/[lbe—ill 


y~T(P, Po) Gyr 


(13.15) 


图 13.7 Wasserstein! %5 


怎么 理解 这 个 公式 ? 想象 你 有 一 个 很 大 的 院子 ， 院 子 里 有 几 处 坑 
坑 注 注 需 要 填 平 ， 四 个 墙角 都 有 一 堆 沙 子 ， 沙 子 总 量 正 好 填 平 所 有 
坑 。 搬 运 沙 子 很 费力 ， 你 想 知 道 有 没有 一 种 方案 ， 使 得 花 的 力气 最 
少 。 直 觉 上 ， 每 个 坑 都 选择 最 近 的 沙 堆 ， 搬 运 的 距离 最 短 。 但 是 存在 
一 些 问 题 ， 如 果 最 近 的 沙 堆 用 完了 ， 或 者 填 完 坑 后 近 处 还 剩 好 多 沙 
子 ， 或 者 坑 到 几 个 沙 堆 的 距离 一 样 ， 我 们 该 怎么 办 ? 所 以 需要 设计 一 
个 系统 的 方案 ， 通 一 考 虑 这 些 问 题 。 最 佳 方案 是 上 面目 标 函 数 的 最 优 
解 。 可 以 看 到 ， 当 沙子 分 布 和 坑 分 布 给 定时 ， 我 们 只 关心 搬运 沙子 的 
整体 损耗 ， 而 不 关心 每 粒 沙 子 的 具体 摆 放 ， 在 损耗 不 变 的 情况 下 ， 沙 
子 摆 放 可 能 有 很 多 选择 。 对 应 式 (13.16) ， 当 你 选择 一 对 (x,y) 时 ， 表 
示 把 x 处 的 一 些 沙子 搬 到 y 处 的 坑 ， 可 能 搬 部 分 沙子 ， 也 可 能 搬 全 部 沙 
子 ， 可 能 只 把 坑 填 一 部 分 ， 也 可 能 都 填 满 了 。x 处 沙子 总 量 为 B(x)，y 
处 坑 的 大 小 为 Fs (2)， 从 x 到 y 的 沙子 量 为 y(x,y)， 整 体 上 满足 等 式 


D7») =P, (9) 


(13.16) 


D(x ¥) = P(x) 


(13.17) 


为 什么 Wasserstein 距 离 能 克服 JS 距 离 解 决 不 了 的 问题 ? 理论 上 的 
解释 很 复杂 ， 需 要 证 明 当 生成 器 分 布 随 参数 9 变化 而 连续 变化 时 ， 生 成 
右 分 布 与 真实 分 布 鸭 Wasserstein 距 离 也 随 0 变 化 而 连续 变化 ， 并 且 几 乎 
处 处 可 导 ， 而 JS 距离 不 保证 随 6 变 化 而 连续 变化 。 


通俗 的 解释 ， 接 着 “ 布 网 ”的 比喻 ， 现 在 生成 器 不 再 “ 布 网 ”"， 改 
成 “定位 妃 踪 ”了 ， 不 管 真实 分 布 藏 在 哪个 低 维 子 空 间 里 ， 生 成 如 都 能 
FAVE EBS, AAA Ae ABO SO TL, BISWA CEI 
实 分 布 的 推土机 距离 ， 而 JS 距 离 古 不 敏感 的 ， 无 论 生成 器 怎么 变化 ， 
JS 距离 都 是 一 个 单数 。 因 此 ， 使 用 推土机 距离 ， 能 有 效 锁定 低 维 子 罕 
间 中 的 真实 数据 分 布 。 


问题 3 WwWGAN 之 道 : 怎样 具体 应 用 wasserstein 距 离 实现 
WGAN 算 法 ? 


难度 : ik Ik 


分 析 与 解答 


一 群 老鼠 开会 ， 得 出 结论 : 如 果 在 独 膛 上 系 一 铃 销 ， 每 次 它 靠 近 
时 都 能 被 及 时 发 现 ， 那 多 好 ! 唯一 的 问题 是 : VER AIC TRA? 现 
在 ， 我 们 知道 了 推土机 距离 这 亚 武 右 ， 那 么 怎么 计算 这 个 距离 ? EE 
机 距离 的 公式 太 难 求解 。 笠 运 的 是 ， 它 有 一 个 挛 生 兄弟 ， 和 它 有 相同 
的 值 ， 这 就 是 Wasserstein 距 离 的 对 侦 式 


W(P, FP, )= sup Ep LO] -E.r [FQ] 


= max Bp [f, ()]— Bp lelo). 


(13.18) 


对 偶 式 大 大 降低 了 Wasserstein 距 离 的 求解 难度 ， 计 算 过 程 变 为 找到 一 
个 画 数 f， 使 得 它 最 大 化 目标 画 数 Bn 1 了 四- 如 nLf09]， 这 个 式 子 看 上 
去 很 眼熟 ， 对 比 原 GANs 的 3X Par, log CO t Er logd -D0] 它 
只 是 去 掉 了 log， 所 以 只 做 微小 改动 就 能 使 用 原 GANs 的 框架 。 


细心 的 你 会 发 现 ， 这 里 的 /与 D 不 同 ， 前 者 要 满足 | fllj<1， 即 1- 
Lipschitz 函 数 ， 后 者 是 一 个 Sigmoid 函 数 作 输 出 层 的 神经 网 络 。 它 们 都 
要 求 在 寻找 最 优 男 数 时 ， 一 定 要 考虑 界 的 限制 。 如 果 没 有 限制 ， 函 数 
值 会 无 限 大 或 无 限 小 。Sigmoid 函 数 的 值 有 天 然 的 界 ， 而 1-Lipschitz 不 
是 限制 画 数值 的 界 ， 而 是 限制 函数 导数 的 界 ， 使 得 函数 在 每 点 上 的 变 
化 率 不 能 无 限 大 。 神 经 网 络 里 如 何 体 现 1-Lipschitz 或 K-Lipschitz 呢 ? 
WGAN 的 思路 很 巧妙 ， 在 一 个 前 向 神经 网 络 里 ， 输 入 经 过 多 次 线性 变 
换 和 非 线性 激活 函数 得 到 输出 ， 输 出 对 输入 的 梯度 ， 绝 大 部 分 都 是 由 
线性 操作 所 乘 的 权重 矩阵 贡献 的 ， 因 此 约束 每 个 权重 矩阵 的 大 小 ， 可 
以 约束 网 络 输出 对 输入 的 梯度 大 小 。 


判别 器 在 这 里 换 了 一 个 名 字 ， 叫 评分 器 (Critic) ,目标 函数 
由 “区 分 样本 来 源 ” 变 成 “为 样本 打分 越 像 真实 样本 分 数 越 高 ， 否 则 
越 低 ， 有 点 类 似 支 持 向 量 机 里 margin 的 概念 ( 见 图 13.8) 。 打 个 龟 免 
RMN, Wome, EAE SE WORN Ae ees 
包 ， 让 二 者 的 距离 〈 或 margin) 越 来 越 大 ; 生成 器 的 目标 是 人 妃 上 免 
Foo Pi RA, VRE awe RE MOS RLS 
Wasserstein 距 离 ; EFDA, VAR MRE TEA SS, Ee 
法 中 要 计算 Wassersteamn 距离 对 生成 器 参数 0 的 梯度 ， 
VWE, Ps) =-E po [Vof,(g8o(z))]， 再 通过 梯度 下 降 法 更 新 参数 ， 让 


Wasserstein 距 离 变 小 。 


Weight Clamping 
(No BCE) 
< 一 高 得 分 
低 得 分 
高 得 分 


一 评分 器 的 训练 
一 生成 器 的 训练 


Z: N(0,D 模拟 图 片 


图 13.8 ”WGAN 的 训练 


03 DCGAN: 当 GANs 遇 上 卷 积 


场景 描述 


虽然 GANs 一 开始 用 于 图 像 生 成 ， 但 是 没有 马上 应 用 卷 积 神 经 网 
络 。 通 单 提 到 图 像 ， 人 们 会 想到 卷 积 神经 网 络 ， 为 什么 GANs 最 初时 
没有 用 它 呢 ? 原来 不 是 随便 一 个 卷 积 神经 网 络 殉 能 玩 转 GANs， 俩 完 
ARONA EZ MD ° 


图 像 相 关 的 几 大 学 习 任务 包括 : 图 像 分 类 、 图 像 分 割 、 物 体检 测 


与 识别 等 。 


图 像 分 类 任务 是 大 多 数 卷 积 神经 网 络 的 主 战 场 ， 从 手写 数字 识别 
到 ImageNet 大 规模 图 像 识 别 比 赛 ， 从 AlexNet、VGG、GoogLeNet 到 | 
ResNet， 裔 布 着 各 类 卷 积 神经 网 络 结构 。 输 入 一 张 图 片 ， 输 出 一 个 类 
All, 一端 是 密 密 磋 太 的 像素 点 阵 ， 一 端 是 表示 类 别 的 一 个 词 ， 从 输入 
问 到 输出 端 丢 失 大 量 信 息 ， 比 如 识别 狗 的 图 片 ， 模 型 天 心 的 是 狗 ， 不 
是 狗 的 大 小 、 颜 色 和 品种 ， 如 图 13.9 所 示 。 信 息 的 丢失 使 得 卷 积 神经 
网 络 仅 用 来 识别 图 片 类 别 ， 难 以 输出 一 张 高 分 辨 紊 的 图 厂 。 


图 片 识别 


Dog and Cat 


图 13.9 图像 分 类 


图 像 分 割 任务 中 ， 输 入 一 张 图 片 ， 输 出 与 原 图 同 尺寸 的 分 割 图 ， 
图 片 被 切 成 不 同 区 域 ， 同 区 域 的 点 用 同一 颜色 表示 。 输 入 端 还 是 一 张 
， 输 出 端 信息 量 相 比 分 类 任务 是 有 所 增加 了 “。 注 意 ， 传 统 卷 积 神经 
网 络 中 每 层 的 高 宽 越 来 越 小 ， 于 失 大 量 与 像素 位 置 相关 的 信息 ， 为 了 
进行 图 像 分 割 任 务 ， 人 研 完 着 们 提出 了 一 些 新 的 卷 积 神经 网 络 结构 ， 比 


如 分 数 步 进 卷 积 层 (Fractional-Strided Convolutions) ， 也 称 反 卷 积 层 
(Deconvolutions) ， 它 让 每 层 的 高 宽 不 减 反 增 ， 从 而 使 得 分 割 任务 中 
最 终 的 输出 和 原始 输入 图 片 尺寸 相同 ， 如 图 13.10 所 示 。 


图 13.10 ”图 像 分 割 


(He, ARENA Re ( 见 图 13.11) 。 图 像 分 割 的 输出 端 
虽然 与 原 图 同 扩 寸 ， 但 是 像素 级 别 的 细节 信息 依然 大 量 丢 掉 ， 难 以 生 
成 高 分 辨 率 的 图 片 。 图 像 生成 这 点 事 ， 绝 不 是 信 手 招来 一 个 卷 积 神经 
网 络 束 能 搞定 。 我 们 该 怎么 改进 卷 积 神经 网 络 呢 ? 


图 13.11 KER 


知 iA, LAAJ 


卷 积 神经 网 络 ， 分 数 步 进 卷 积 层 ( 反 卷 积 层 ) ， 批 量 归 一 化 ， 
ReLU/LReLU 


问题 在 生成 器 和 判别 器 中 应 该 怎样 设计 深层 卷 积 结构 ? 


难度 : tek ake sek 


Fy AE Bras EAR TO tr, BE eS FE GANSHER A RAB 
FESTA eS o (Ele, ARH Ra aA Al Be Fe 


分 析 与 解答 


为 了 充分 发 挥 GANs 中 卷 积 网 络 的 威力 ， 我 们 需要 摘 清 楚 两 件 事 
E: 生成 器 到 底 做 了 什么 ? 以 及 判别 器 到 底 做 了 什么 ? 


n 生成 器 


生成 器 生成 图 片 ， 可 以 看 成 图 片 分 类 的 一 个 逆 过 程 。 图 片 分 类 器 
的 输入 是 一 张 图 片 ， 输 出 是 一 个 类 别 ， 图 片 生成 器 的 输出 是 一 张 图 
片 ， 但 它 的 输入 是 什么 呢 ? 输入 通常 有 一 个 随机 向 量 ， 如 高 斯 分 布 产 
生 的 100 维 随机 向 量 。 这 个 随机 向 量 有 什么 含义 ? 在 深度 神经 网 络 的 黑 
盒子 里 ， 我 们 无 从 知道 。 但 是 我 们 可 以 确定 : 100 维 随机 向 量 对 比 一 张 
128x128 小 图 片 (扁平 化 后 是 16384 维 ) 是 一 个 极 低 维 的 向 量 。 


从 低 维 回 量 得 到 高 维 图 片 ， 想 高 分 辨 率 ， 这 怎么 可 能 ? 例如 ， 从 
一 个 类 别 到 一 张 图 片 ， 信 息 由 少 到 多 ， 不 仅 不 能 压缩 或 丢失 信息 ， 还 
要 补充 信息 ， 任 务 难度 必然 增 大 。 好 比 ， 我 一 说 “ 狗 ”， 你 脑子 里 内 出 
狗 的 画面 ， 可 能 是 金 巴 ， 可 能 是 藏 获 ， 你 以 前 一 定 见 过 这 样 的 狗 ， 脑 
子 里 已 经 有 了 它 的 影像 信息 ， 我 的 一 个 词 束 能 引起 你 的 想象 。 即便 这 
样 ， 让 你 画 出 狗 来 ， 假 定 你 绘画 功 展 很 强 ， 你 最 移 画 出 的 是 狗 的 轮 
慷 ， 而 不 是 一 张 真实 图 片 ， 因 为 有 太 多 的 细 市 需要 一 点 点 添加 ， 比 
如 : 狗 毛 发 的 颜色 ， 狗 是 跑 着 的 还 是 中 着 的 ， 狗 在 屋子 里 还 古 在 草地 
上 .……. 我 们 可 以 把 100 维 随机 向 量 ， 理 解 成 要 事先 确定 一 些 信息 ， 除 了 
类 别 还 要 有 细节 ， 它 们 各 项 独立 并 可 以 相互 组 合 ， 比 如 一 只 洲 在 茶杯 
里 的 采 萌 茶杯 犬 〈 见 图 13.12) ° 


13.12 ”图 像 生成 任务 需要 的 一 些 细 市 信息 


用 随机 回 量 的 每 维 刻 画 不 同 的 细节 ， 然 后 生成 一 张 图 片 。 KEWL 
量 不 售 像 素 级 别 的 位 置信 息 ， 但 是 对 于 图 片 ， 每 个 像素 都 有 它 的 位 
置 ， 点 构成 了 线 ， 线 组 成 了 面 ， 进 而 描绘 出 物体 的 形状 。 如 有 果 这 些 位 
置信 息 不 是 从 随机 回 量 中 产生 ， 那 么 吏 应 出 目 生 成 郁 的 特殊 网 络 结 


构 


那么 ， 卷 积 神经 网 络 能 体现 位 置信 息 吗 ? 最 初 设计 卷 积 神经 网 络 
时 ， 引 入 了 感受 野 的 概念 ， 捕 提 图 乒 邻 近 区 域 的 特征 ， 只 有 位 置 靠 近 
的 像素 总 才能 被 感受 野 一 次 捕捉 到。 传统 多 层 卷 积 结构 中 ， 越 菲 近 输 
入 端 ， 包 含 的 位 置信 息 越 明显 ， 随 着 层 层 深入 ,感受 野 注 盖 的 区 域 扩 
大 ， 过 于 细节 的 位 置信 息 丢 失 ， 留 下 噩 级 语义 信息 ， 更 好 地 反映 图 片 
的 类 别 。 经 典 的 卷 积 神 经 网 络 只 是 捕捉 或 识别 位 置信 息 ， 不 负责 产生 
位 置信 息 ， 位 置信 息 来 源 于 输入 的 图 片 ， 当 它们 不 能 有 效 反 映 图 片 的 
高 级 语义 (如 类 别 ) 时 ， 就 会 在 逐 层 计算 中 被 丢掉 61。 


因此 ， 从 随机 向 量 千 出 图 片 ， 要 在 造 的 过 程 中 产生 位 置信 息 。 这 
个 生成 过 程 需 符合 以 下 两 点 原则 。 


(1) 保证 信息 在 逐 层 计算 中 逐渐 增多 。 
(2) 不 损失 位 置信 息 ， 并 不 断 产 生 更 细 市 的 位 置信 息 。 
参考 文献 [37] 给 出 了 一 套 具体 的 做 法 。 


(1) 去 掉 一 切 会 丢掉 位 置信 息 的 结构 ， 如 池 化 层 。 


池 化 层 是 在 邻近 区 域 取 最 大 或 到 平均 ， 会 丢失 这 一 区 域内 的 位 置 
信息 : 无 论 怎么 布局 ， 最 大 值 和 平均 值 是 不 变 的 。 位 置 不 变性 是 应 对 
片 分 类 的 一 个 优 民 性 质 ， 但 是 对 图 片 生 成 来 说 是 一 个 糟 料 的 性 质 ， 
J 通过 丢失 细节 信息 来 保留 高 级 语义 (R 
分 类 相关 信息 ) 。 


(2) 使 用 分 数 步 进 卷 积 层 。 


模型 要 做 的 不 是 抽象 而 是 具象 ， 计 算是 升 采样 的 过 程 ， 逐 步 提 供 
多 细节 。 将 100 维 随机 同 量 经 过 一 层 ， 变 换 成 一 个 4x4x1024 的 张 
， 宽 度 和 高 度 都 为 4， 虽 然 大 小 有 限 ， 但 是 暗示 了 位 置 的 存在 ， 接 着 
过 层 层 变换 ， 高 度 和 宽度 不 断 扩大 ， 深 上 度 不 断 减 小 ， 直 至 输出 一 个 
宽度 、 高 度 及 RGB 三 通道 的 64x64x3 图 片 。 
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无 能 为 力 ， 我 们 需要 采用 特殊 的 卷 积 层 来 实现 增加 高 党 的 升 采 样 计 算 
B38]， 即 分 数 步 进 卷 积 层 ， 如 图 13.13 所 示 。 


图 13.13 ”分数 步 进 卷 积 层 


步 长 大 于 1 的 传统 卷 积 层 会 把 输入 图 缩 成 一 张 高 宽 更 小 的 图 ，5x5 
的 图 经 过 核 3x3 步 长 2x2 的 卷 积 层 得 到 一 个 2x2 的 图 ， 如 图 13.14 (a) 所 
示 。 如 果 这 个 过 程 可 逆 ， 则 由 输入 2x2 图 可 得 5x5 图 。 严 格 意义 上 的 逆 
过 程 是 数学 上 的 求 逆 操作 ， 这 太 复 杂 。 分 数 步 进 卷 积 层 只 是 象征 性 地 
保证 输入 2x2 图 输出 5x5 图 ， 同 时 仍 满足 卷 积 操作 的 定义 。 怎 么 做 到 ? 


填 零 ， 不 仅 边缘 处 填 零 ， 像 素 点 间 也 填 零 。 我 们 将 2x2 图 扩 为 5x5 图 ， 
再 经 过 核 3x3 步 长 1x1 的 卷 积 层 ， 束 能 得 到 一 个 5x5 图 ， 如 图 13.14 (b) 
BRAS o kN RRA A ER PER A, TIERS BM LAK 
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(a) 普通 卷 积 


图 13.14” 卷 积 操作 
(3) 去 掉 最 后 的 全 连接 层 


通常 CNN 最 后 接 全 连接 层 ， 是 为 了 综合 各 维度 做 非 线 性 变换 ， 应 
对 图 片 分 类 的 目标 。 这 里 的 任务 是 生成 图 片 ， 用 全 连接 层 不 仅 没 必 
要 ， 还 会 打 乱 多 层 卷 积 建 立 的 空间 结构 。 越 靠近 图 片 输出 端 ， 越 要 精 
心 呵护 宽 高 二 维 平面 上 的 位 置信 息 ， 反 而 在 输入 端 可 以 增加 一 个 全 连 
接 层 ， 将 100 维 随机 向 量 经 过 和 矩阵 乘法 转换 成 4x4x1024 的 张 量 。 


(4) 批量 归 一 化 和 ReLU 激 活 函 数 


批量 归 一 化 是 2015 年 Loffe & Szegedy 提 出 的 用 于 改进 神经 网 络 结 
构 的 一 层 ， 称 为 Batchnorm 层 ， 现 已 被 广泛 使 用 B91。 单个 神经 元 在 
batch 层 面 上 做 正规 化 处 理 ， 得 到 均值 0 方差 1 的 新 batch， 保 证 通畅 的 梯 
Beit, BRR a OA el, Se REA A IRAE © AE ple Be A ib 
ik, BR 2Batchnomie, BMV, Wwa AA ee a) a 
总 生成 相同 的 图 片 样本 。 另 外 ， 为 了 避免 梯度 饱和 ， 让 学 习 更 稳定 ， 
内 部 使 用 ReLU 激 活 函 数 ， 只 在 图 片 输出 层 用 Tanh 激 活 函 数 。 
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务 , 但 十 义 不 同 于 一 般 的 图 片 分 类 。 真 品 和 厦 品 的 区 别 ， 往 往 钙 细 市 
上 的 差异 ， 而 不 是 宏观 层面 的 语义 差异 。 判 别 融 的 多 层 卷 积 网 络 ， 依 


然 抛 弃 池 化 层 ， 将 它 蔡 换 为 步 长 大 于 1 的 卷 积 层 ， 虽 然 也 是 一 个 降 采 样 
的 过 程 ， 但 是 没有 池 化 层 那样 粗放 。 判 别 右 的 最 后 一 层 不 接 全 连接 
屋 ， 局 平 化 处 理 后 直接 送 给 Sigmoid 输 出 层 ， 最 大 限度 地 留 住 位 置 细 
站 。 另 外 ， 判 别 右 的 内 部 激活 函数 使 用 LReLU， 也 是 要 最 大 限度 地 留 
住 前 层 信息 。 判 别 器 也 用 到 Batchnorm 层 。 


04 ALI: 包揽 推断 业务 


场景 描述 


宋 畏 有 位 呈 芝 非常 言 爱 书画 ， 创 建 了 世界 上 最 早 的 旦 家 画院 。 一 
次 考试 ， 他 出 的 题目 钙 “ 深 山 藏 古 守 ”， 让 众多 前 来 报考 的 画家 画 。 有 
的 在 山腰 间 画 了 一 座 古 村 ， 有 的 将 古寺 画 在 从 林 深 处 ， 有 的 古寺 画 得 
完整 ， 有 的 只 画 了 和 寺 的 一 角 。 旦 带 看 了 都 不 满意 ， 就 在 他 叹息 之 时 ， 
一 幅 画 作 进入 他 的 视线 ， 他 病 详 一 番 称 赞 道 :“ 妙 哉 ! We! ”原来 这 
(ERA AF, AW Se IRI], RAR KER, MEA 
RIGS, Aa eRe, AC SS AA, 
失 在 丛林 深 处 〈 见 图 13.15) 。 寺 昌 不 见于 画 ， 却 定 “ 藏 * 于 山 ， 比 起 寺 
的 一 角 或 一 段 墙 士 ， 更 切合 考题 。 


深山 现 古寺 


深山 藏 古寺 


图 13.15 ”深山 藏 古寺 


人 们 看 画 ， 看 的 不 仅 是 画家 的 画 技 ， 还 有 所 表达 的 主题 。 同 一 主 
题 ， 表 现 的 手法 很 多 ， 不 同人 会 画 出 不 同 画 。 反 过 来 ， 观 者 在 看 到 这 
些 不 同 画 时 ， 都 能 联想 到 同一 主题 或 相似 主题 。 给 一 个 主题 ， 创 作 一 
幅 画 ， 这 束 是 生成 的 过 程 ; 给 一 幅 画 ， 推 测 画 的 主题 ， 这 就 是 推断 的 
过 程 。 生 成 与 推断 十 互 敢 的 。 这 样 的 例子 还 有 很 多 ， 一 方面 ， 当 要 测 
试 一 个 人 的 创造 力 时 ， 给 他 一 个 话题 让 他 写 文章 ， 给 他 一 个 思路 让 他 
想 实施 细 市 ， 这 类 测试 问题 都 是 开放 性 的 ， 没 有 标准 答案 ， 却 不 妨碍 
我 们 考查 对 方 的 能 力 ， 男 一 方面 ， 当 听 到 一 个 人 的 发 言 或 看 到 他 的 作 
品 时 ， 我 们 会 揣摩 对 方 的 真实 用 意 ， 他 的 话 是 什么 意思 ， 他 的 作品 想 
表达 什么 。 


我 们 面 对 两 类 信息 ， 一 类 可 以 观察 到 ， 一 类 虽 观 察 不 到 但 似乎 整 
在 那里 ， 或 直 白 ， 或 隐约 ， 我 们 通过 推断 感受 到 它 的 存在 。 这 两 类 信 
轧 在 两 种 表达 空间 里 ， 一 种 是 观察 数据 所 在 的 数据 空间 ， 一 种 是 隐 变 
量 所 在 的 隐 空 间 ， 后 者 是 前 者 的 一 种 抽象 。 生 成 和 推 凯 就 十 这 两 种 空 
间 上 信息 的 转换 ， 用 两 个 深度 神经 网 络 来 构建 ， 一 个 是 生成 网 络 ， 一 
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建立 从 数据 空间 到 隐 空 间 的 映射 。 数 据 空间 的 信息 看 得 见 ， 称 为 明 

码 ， 隐 空间 的 信息 看 不 见 ， 称 为 上 暗 码 ， 因 此 生成 网 络 是 一 个 解码 絮 
(Decoder) ， 推 断 网 络 是 一 个 编码 器 (Encoder) ° 


把 生成 和 推断 相 结 合 ， 想 象 一 个 场景 ， 我 们 想 学 习 印 象 派 画 家 的 
画 风 ， 仔 细 观 察 多 幅 名 作 ， 体 会 它们 的 表现 手法 及 反映 的 主题 ， 然 后 
我 们 插 痢 目 己 的 理解 ， 杀 目 动手 ， 创 作 一 幅 印 象 派 画 。 整 个 过 程 分 为 
推断 和 生成 。 那么 ， 如 何 提 高 我 们 的 绘画 水 平 ? 我 们 需要 一 位 大 师 或 
懂 画 的 评论 家 ， 告 诉 我 们 哪里 理解 的 不 对 ， 哪 里 画 的 不 对 。 我 们 则 要 
在 评论 家 的 批评 中 增进 技 乙 ， 以 至 于 让 他 挑 不 出 毛病 。 这 也 是 GANs 
的 基本 思路 。 


2017 年 的 一 篇 论文 提出 ALI (Adversarially Learned Inference) 模 
型 40]， 将 生成 网 络 和 推断 网 络 一 起 放 到 GANs 的 框架 下 ， 进 而 联合 训 
练 生 成 模型 和 推断 模型 ， 取 得 不 错 的 效果 。 


知识 点 
概率 推断 ， 隐 空间 ，Encoder/Decoder 


问题 ”生成 网 络 和 推断 网 络 的 融合 。 


难度 : tokyo 


请 问 如 何 把 一 个 生成 网 络 和 一 个 推 煌 网络 融合 在 GANs 框 娘 下 ， 
借助 来 自 判 别 器 的 指导 ， 不 仅 让 模拟 样本 的 分 布 尽量 帝 近 真 实 分 布 ， 
而 且 让 模拟 样本 的 隐 空 间 表 示 与 真实 样本 的 隐 空 间 表 示 在 分 布 上 也 尽 


量 接 近 。 


分 析 与 解答 
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转换 路 径 ， 从 z 到 x 也 有 一 条 转换 路 径 ， 前 者 对 应 一 个 编码 过 程 ， 后 者 
对 应 一 个 解码 过 程 。 从 概率 的 角度 看 ， 编 码 是 一 个 推 凯 过 程 ， 先 从 真 
实数 据 集 采样 一 个 样本 x， 再 由 x 推断 z， 有 给 定 x 下 z 的 条 件 概 率 q(zlx); 
解码 是 一 个 生成 过 程 ， 先 从 一 个 固定 分 布 (如 : 高 斯 分 布 N(0,D) 出 
发 ， 采 样 一 个 随机 信号 E， 经 过 简单 变换 成 为 2， 再 由 z 经 过 一 系列 复杂 
非 线 性 变换 生成 x， 有 给 定 z 下 x 的 条 件 概 率 p(xlz)。 一 般 地 ， 隐 空间 表示 
z 比 观察 数据 x 更 抽象 更 精炼 ， 刻 画 z 的 维 数 应 远 小 于 x， 从 随机 信号 E 到 
z 只 做 简单 变换 ， 有 时 直接 拿 e 作 z， 表 明 隐 空间 的 信息 被 压 缩 得 很 干 
净 ， 任 何 匈 余 都 被 榨 干 ， 任 何 相关 维度 都 被 整合 到 一 起 ， 使 得 隐 空 间 
各 维度 相互 独立 ， 因 此 隐 空 间 的 随机 点 是 有 含义 的 。 


将 观察 数据 和 其 隐 空 间 表 示 一 起 考虑 ，(xz， 写 出 联合 概率 分 
布 。 从 推断 的 角度 看 ， 联 合 概率 q(x,z)=q(x)q(zlx)， 其 中 q(x) 为 真实 数据 
集 上 的 经 验 数 据 分 布 ， 可 认为 已 知 ， 条 件 概 率 q(z|lx) 则 要 通过 推断 网 络 
来 表达 ;从 生成 的 角度 看 ，p(x,z)=p(z)p(xlz)， 其 中 p(z) 是 事先 给 定 的 ， 
如 z~~N(0, 有 ， 条 件 概率 p(x|z) 则 通过 生成 网 络 来 表达 。 然 后 ， 我 们 让 这 
两 个 联合 概率 分 布 g(x,z) 和 p(x,z) 相 互 拟 合 。 当 二 者 趋 于 一 致 时 ， 可 以 确 
定 对 应 的 边 毕 概率 都 相等 ，q(x)=p(x)，q(z)=p(z)， 对 应 的 条 件 概率 也 都 
相等 q(z|lx)=p(z|x), 9(x|z)=p(x|z)。 最 重要 的 是 ， 得 到 的 生成 网 络 和 推断 网 
络 是 一 对 互 逆 的 网 络 。 值 得 注意 的 是 ， 这 种 互 逆 特 性 不 同 于 目 动 编码 
铝 这 种 通过 最 小 化 重建 误差 学 出 的 网 络 ， 后 者 是 完全 一 等 一 的 重建 ， 
而 前 者 是 具有 相同 隐 空 间 分 布 〈 如 : 风格、 主题) 的 再 创造 。 

除了 生成 网 络 和 推断 网 络 ， 还 有 一 个 判别 网 络 。 它 的 目标 是 区 分 
来 目 生 成 网 络 的 (= Cusoau(2)2) 和 来 目 推断 网 络 的 (c = Goncoder()), AN 


13.16 所 示 。 在 GANs 框 架 下 ， 判 别 网 络 与 生成 和 推 凯 网 络 共 至 一 个 目 
标 函 数 


VD, GaGa.) = Eryo llog DŒ, G, +B, po loga- D Ga, (2),2))] 


= [JaC | x; 2a) log D; (x, z)dxdz + [SPPE | z; Auo) log(1 — D, (x, z))dxdz. 
(13.19) 


进行 的 也 是 一 场 MiniMax 游 戏 : 


min maxV(D,,G, ,G 
O=(baec Fence) $ ( lll ~ Cenc ) 》 


(13.20) 


其 中 boboeg 分 别 为 生成 网 络 、 推 断 网 络 和 判别 网 络 的 参数 ， 判 别 网 
络 试图 最 大 化 V 画 数 ， 生 成 和 推 凯 网 络 则 试图 最 小 化 V 函 数 。 第 一 个 等 
号 右边 的 式 子 ， 有 反映 了 在 重 参数 化 技巧 (Re-parameterization Trick) 
下 将 三 个 网 络 组 装 成 一 个 大 网 络 ， 第 二 个 等 号 右边 的 式 子 ， 从 判别 絮 
的 角度 看 产生 (x,z) 的 两 个 不 同 数据 源 。 


2 ~ g(z|x) 


图 13.16 ”ALI 模 型 


实际 中 ， 为 克服 训练 初期 生成 和 推断 网 络 从 判别 网 络 获取 梯度 不 
足 的 问题 ， 我 们 采用 一 个 梯度 增强 版 的 优化 目标 ， 将 原 目 标 函 数 中 的 
log(L-D(G()) 改 成 -logLDUC(， ))。 原 GANSs 论 文 指 出 ， 这 个 小 变换 不 改 
变 前 后 优化 目标 的 解 ， 但 是 前 者 会 出 现 梯度 饱和 问题 ， 后 者 能 产生 更 
明显 的 梯度 。 修 改 前 生成 和 推 听 网络 的 优化 目标 为 : 

DB, qnllog D,E, Ga 1+ E,po log- Dy (Ga, (2),2))] 


mi 
O=( liec Penc 


(13.21) 


修改 后 的 优化 目标 为 : 


max à E sq l8 - D; x, Co C) + B,_,)[log Dy (Go (2), 2)] | 


0O=(biec， Bl 
(13.22) 


有 了 上 面 的 分 析 ， 就 好 设计 出 一 个 同时 训练 生成 和 推断 网 络 及 判别 网 
络 的 GANs 算 法 。 


05 IRGAN: 生成 离散 样本 


场景 描述 


Reddit 论 坛 上 有 一 篇 Goodfellow 发 表 的 帖子 : “GANs have not been 
applied to NLP because GANSs are only defined for real-valued data... The 
gradient of the output of the discriminator network with respect to the 
synthetic data tells you how to slightly change the synthetic data to make it 
more realistic. You can make slight changes to the synthetic data if it is 
based on continuous numbers. If it is based on discrete numbers, there is 
no way to make a slight change.” 
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到 一 个 非常 好 的 解 。 可 是 ， 如 采 生 成 磊 输 出 离散 数据 ， 诸 如 :搜索 引 
擎 返回 的 链接 ， 电 商 网 站 推荐 的 手机 ， 那 么 梯度 产生 的 微小 更 痢 吏 被 
打破 了 ， 因 为 离散 样本 的 变化 不 是 连续 而 是 跳 跃 的 。 举 个 例子 ， 灯 光 
亮度 是 一 种 连续 型 数据 ， 可 以 说 把 灯光 调 亮 一 些 ， 也 可 以 说 把 灯光 调 
亮 一 点 ， 还 可 以 说 把 灯光 调 亮 一 点 点 ， 这 都 可 操作 ; 但是， 从 买 苹果 
转 到 买 林子 ， 你 不 能 说 买 林子 一 些 ， 一 点 或 者 一 点 点 〈 见 图 13.17) ° 
将 GANs 用 来 生成 离散 数据 ， 不 是 一 件 简单 的 事情 ， 但 是 生 活 中 很 多 
时 候 ， 我 们 过 到 的 就 是 各 型 各 色 的 离散 型 数据 。 


离散 〈 无 序 ) 的 商品 


60-06 


苹果 ”橙子 橙子 ”苹果 一 


图 13.17 ”离散 数据 


让 我 们 想象 一 个 信息 检索 的 场景 : 给 定 一 个 查询 词 ， 系 统 返 回 与 
查询 词 相 关 的 寿 二 文档。 现在， 我 们 有 一 批 用 户 点 击 数据 ， 记 录用 户 


在 某 查询 词 下 点 击 哪些 文档 。 用 户 的 反馈 告诉 我 们 哪些 是 正 样 本 ， 为 
了 训练 识别 正 负 样本 的 有 监督 模型 ， 我 们 还 需 负 样本 ， 即 与 查询 词 不 
相关 或 者 看 似 相关 实则 无 关 的 样本 。 通 常 做 法 是 在 全 部 文档 集 上 随机 
负 采 样 ， 一 个 查询 词 的 正 样本 集 与 全 体 文档 集 比 简 直 沧 海 一 票 ， 所 以 
随机 采 得 的 文档 碰巧 是 正 样本 的 概率 很 小 。 但 这 会 遇 到 一 个 问题 ， 随 
机 负 采 样 的 结果 往往 太 简 单 ， 对 模型 构 不 成 难度 。 我 们 想 尽量 制造 易 
混淆 的 例子 ， 才 能 让 模型 的 学 习 能 力 达 到 一 个 新 水 平 。 因 此 ， 我 们 不 
能 在 全 集 做 负 有 采样， 必须 在 与 查询 词 含 义 接 近 或 貌似 接近 的 地 带 负 采 
样 。 一 个 新 问题 是 ， 这 种 有 偏 采样 下 ， 采 到 正 样本 的 概率 大 大 增加 ， 
我 们 不 能 简单 地 认为 随机 采样 结果 都 是 负 样 本 。 怎 么 办 呢 ? 2017 年 的 
一 篇 论文 提出 了 解决 办 法 ， 称 之 为 IRGANHMH o 


知识 yy 
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问题 用 GAN 产生 负 样 本 。 


难度 : ok Ik 


我 们 想 借助 GANs 解 决 上 面 问 题 ， 设 计 一 种 制造 负 样本 的 生成 
咒 ， 采 样 一 些 迷 惑 性 强 的 人 负 样 本 ， 增 大 对 判别 模型 的 挑战 。 查 询 词 表 
示 为 9， 文 档 表 示 为 4。 请 描述 一 下 你 的 设计 思路 ， 指 出 潜在 的 问题 及 
解决 方案 。 请 问 : 训练 到 最 后 时 ， 生 成 模型 还 是 一 个 负 样 本 生成 需 
15? 


分 析 与 解答 


我 们 把 全 集 上 随机 选 负 样本 的 方法 ， 看 成 一 种 低级 的 生成 器 ， 该 
生成 絮 始 终 是 固定 的 ， 没 有 学 习 能 力 。 我 们 想 设 计 一 个 更 好 的 有 和 学习 


能 力 的 生成 器 ， 可 以 不 断 学 习 ， 生 成 高 质量 的 负 样 本 去 迷惑 的 判别 

佛 。 实 际 上 ， 在 GANs 的 设计 理念 里 ,“ 负 样本 ”的 表述 不 准确 ， 因 为 生 

成 器 的 真正 目标 不 是 找 出 一 批 与 查询 词 不 相关 的 文档 ， 而 是 让 生成 的 

模拟 样本 尽量 通 近 真实 样本 ， 判 别 右 的 目标 是 发 现 哪些 样本 是 真实 用 

户 的 点 击 行为 ， 哪 些 是 生成 絮 的 伪造 数据 。“ 正 负 *” 售 义 微妙 变化 ， 前 

ee eee 现在 真实 数据 或 模拟 数据 也 可 
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在 信息 检索 的 场景 下 ， 我 们 遵循 GANs 的 MiniMax 游 戏 框架 ， 设 计 
一 个 生成 式 检索 模型 pg(dlq) 和 一 个 判别 式 检索 模型 (4,4)。 给 定 g， 生 
成 模型 会 在 整个 文档 集中 按照 概率 分 布 pg(dlq) 挑 选 出 文档 dg， 它 的 目 
标 是 晕 近 真实 数据 的 概率 分 布 pwue(dlq)， 进 而 迷惑 判别 器 ， 同 时 ， 判 
别 模型 试图 将 生成 磊 仿 造 的 (q,dg) 从 真实 的 (q,dwwwe) 中 区 分 出 来 。 原 本 的 
判别 模型 是 用 来 鉴别 与 Query 相 关 或 不 相关 的 文档 ， 而 在 GAN 框 架 下 
判别 模型 的 目标 发 生 了 微妙 变化 ， 区 分 的 是 来 目 真实 数据 的 相关 文档 
和 模拟 产生 的 潜在 相关 文档 。 当 然 ， 最 终 的 判别 模型 仍 可 鉴别 与 Query 
Li ?我 们 用 一 个 MiniMax 目 标 范 数 来 统一 生成 模型 

别 模型 : 


= + N 
I” oe min ar YG, te log D, (d | dn )] + E~ no (alan ) [log(l D; (d | dn DI 
n=l ’ 


(13.23) 
其 中 Pd lg)=Sigmold(jy(a,d))。 这 是 一 个 交 坟 优化 的 过 程 ， 固 定 判 
别 恬 ， 对 生成 器 的 优化 简化 为 : 


N 
g= argmax > Esa og + exp(f,(q,,d))] 
n=1 7 


(13.24) 
问题 来 了 ， 如 果 d 连 续 ， 我 们 沿用 原 GANs 的 套路 没 问 题 ， 对 每 个 


K ] 1 nodi ` oo 
dns ERKAN a, AORTA) e it ee Ng 下 的 


损失 函数 By-mcagJllog(1+exp(jy(4,,4)))， 损 失 画 数 对 di 的 梯度 会 回 传 给 


EM AE Mae e (Ae, WRIA, MAN ROT ER AME, R 
们 拿 什么 传 给 生成 器 呢 ? 

强化 学 习 中 的 策略 梯度 方法 揭示 了 期 望 下 损失 函数 的 梯度 的 男 外 
一 种 形式 4231。 我 们 用 .5(q) 表 示 给 定 qn 下 损失 函数 的 期 望 ， 即 : 


J? (gq,):= Ea- ,ca og + Exp Can DY. 
(13.25) 
我 们 暂 不 用 蒙特 卡 洛 采 样 〈 即 采样 样本 之 和 的 形式 ) 去 近似 期 望 ， 而 
是 直接 对 期 望 求 梯度 
VoI (qn) = Ea- py aig, [OBO +exp(fy(q,,4d)) Volog po (d | 4,1. 
(13.26) 


梯度 仍 是 期 望 的 形式 ， 是 对 数 概率 函数 log polda ) 对 6 的 梯度 带 上 权重 
log(+exp(js(4,,4))) 的 期 望 ， 我 们 再 用 蒙特 卡 洛 采 样 去 近似 它 : 


1 K 
Vel” (9,) = y 2 logi +exp( fy (9,4, )))V o log Po (d, | qn) 
k=l 


(13.27) 


EPICA REPEL o EIT, RIIB TT Bl pn Be BOT E lca SON 
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略 函 数 ) 求 梯度 的 基础 上 ， 所 以 称 为 策略 梯度 。 


欲 得 到 策略 梯度 ， 我 们 必须 显 式 表达 pe(d qu)， 这 与 原 GANs 的 生 
成 右 不 同 。 原 GANs 不 需要 显 式 给 出 概率 分 布 贸 数 的 表达 式 ， 而 是 使 
用 了 重 参 数 化 技巧 ， 通 过 对 噪音 信号 的 变换 直接 给 出 样本 ， 好 处 是 让 
生成 过 程 变 得 简单 ， 坏 处 是 得 不 到 概率 表达 式 ， 不 适 于 这 里 的 生成 
左 。 这 里 直接 输出 的 不 是 离 做 样本 ， 而 是 每 个 离散 样本 的 概率 。 一 方 
面 ， 生 成 炙 的 输入 端 不 需要 引入 噪音 信号 ， 我 们 不 想 让 概率 分 布 函 数 
也 变 成 随机 变量 ; 另 一 方面 ， 生 成 袁 的 输出 端 需要 增加 抽样 操作 ， 依 


据 所 得 概率 分 布 生成 K 个 样本 。 如 果 用 神经 网 络 对 生成 器 建 模 ， 那 么 
最 后 一 层 应 是 Softmax 层 ， 才 能 得 到 离散 样本 概率 分 布 。 在 判别 器 的 构 
建 中 ， 输 入 的 是 离散 样本 的 n 维 向 量 表示 ， 如 一 个 文档 向 量 每 维 可 以 是 
一 些 诸如 BM25，TF-IDF，PageRank 的 统计 值 ， 其 余部 分 参照 原 GANs 
的 做 法 。 


最 后 ， 训 练 过 程 与 原 GANs 的 步骤 一 样 ， 遵 循 一 个 MiniMax 的 优化 
框架 ， 对 生成 姻 和 判别 絮 交 苦 优 化 。 优 化 生成 虱 阶 段 ， 先 产生 K 个 样 
本 ， 采 用 策略 梯度 对 生成 模型 参数 进行 多 步 更 狐 ， 优 化 判别 絮 阶 段 ， 
也 要 先 产 生 K 个 样本 ， 作 为 负 样 本 与 真实 数据 的 样本 共同 训练 判别 
俐 。 理 论 上 ， 优 化 过 程 会 收敛 到 一 个 纳什 均衡 点 ， 此 时 生成 絮 完 美 地 
拟 合 了 真实 数据 的 Query-Document 相 关 性 分 布 py,(dlq,)， 这 个 生成 模 
型 被 称 为 生成 式 检索 模型 (Generative Retrieval Models) ， 对 应 于 有 
监督 的 判别 式 检索 模型 (Discriminative Retrieval Models) 


06 SeqGAN: 生成 文本 序列 


场景 描述 


我 们 已 探讨 了 用 GANs 生 成 离散 数据 。 在 有 限 点 构成 的 离散 空间 
中 ， 每 个 样本 是 一 个 最 小 且 不 可 分 的 点 ， 不 考虑 点 内 部 构造 。 因 此 ， 
上 市 IRGAN 模 型 中 “生成 ”二 字 的 含义 ， 是 从 一 群 点 中 挑 出 一 些 点 ， 是 
全 集 生 成 子 集 的 过 程 。 信 息 检 索 的 生成 模型 ， 在 给 定 碍 询 词 后 ， 从 文 
档 集中 找 出 最 相关 的 文档 ， 一 个 文档 就 是 一 个 最 小 单位 的 点 ， 至 于 文 
档 用 了 哪些 词 ， 它 并 不 关心 。 


很 多 时 候 ， 我 们 想得到 更 多 细节 ， 比 如 : 写 出 一 篇 文章 、 一 段 话 
或 一 句 话 ， 不 只 是 从 文档 集中 选 出 文章 。 一 个 是 * 选 ”的 任务 ， 一 个 
是 “ 写 * 的 任务 ， 二 者 差别 很 大 。 以 句子 为 例 ， 选 句子 是 把 句子 看 成 一 
个 点 ， 写 句子 是 把 句子 看 成 一 个 个 字 。 假 设 你 手 里 有 一 本 《英语 900 
句 》， 你 把 它 背 得 深 瓜 烂熟 。 当 让 你 “活用 900 句 ”时 ， 是 指针 对 特定 场 
景 ， 从 900 句 中 挑选 最 恰当 的 一 句 话 ， 当 让 你 “模仿 900 句 造句 * 时 ， 是 
指 不 拘泥 于 书 中 原 句 ， 可 替换 名 词 动 词 、 改 变 时 态 等 ， 造 出 书 中 没有 
的 句子 ， 此 时 你 不 能 将 句子 看 成 点 ， 不 能 死记 硬 背 ， 需 开启 创造 性 思 
维 ， 切 入 句子 结构 来 选 词 造句 。 生 成 一 句 话 的 过 程 ， 是 生成 文字 序列 
的 过 程 ， 序 列 中 每 个 字 是 最 小 的 基本 单位 。 也 就 是 说 ， 句 子 是 离散 
的 ， 词 也 是 离散 的 ， 生 成 器 要 做 的 不 是 “ 选 * 句 子 ， 而 是 “ 选 * 词 “ 写 * 句 
T o 


2017 年 一 个 名 为 SeqGAN 的 模型 被 提出 中]， 用 来 解决 GANs 框 架 下 
生成 文本 序列 的 问题 ， 进 一 步 拓展 GANs 的 适用 范围 。 该 文章 借鉴 了 
强化 学 习 理 论 中 的 策略 和 动作 值 函 数 ， 将 生成 文字 序列 的 过 程 看 成 一 
系列 选 词 的 决策 过 程 ，GANs 的 判别 器 在 决策 完毕 时 为 产生 的 文字 序 
列 打分 ， 作 为 影响 决策 的 奖励 M4 。 


知识 yw 


循环 神经 网 络 ，LSTMVGRU ， 语 言 模型 (Language Model) , % 
励 / 长 期 奖励 ， 策 略 梯度 ， 动 作 值 函数 


ag 如 何 构 建生 成 器 ， 生 成 文字 组 成 的 序列 来 表示 名 


TERE: tek tears 
分 析 与 解答 


假定 生成 器 产生 一 个 定 长 (WT) 的 句子 ， 即 文字 序列 
Yr = (7, Yr), y, 其 中 y 表 示 -个 词 ，y 表 示 词 库 。 一 般 地 ， 
序列 建 模 采用 RNN 框 架 ( 见 图 13.18) ， 具 体 单元 可 以 是 LSTM 或 
GRU， 其 至 带 上 注意 力 机 制 。 


hl 
(13.28) 
P(*| %5---5%,) = z, (h,) = Softmax(Wh, +c), 
(13.29) 
Ve ~ PC | es NA 
(13.30) 


上 面 式 子 刻画 了 RNN 的 第 t 步 ，j_; 表 示 前 一 步 的 隐 状 态 ，x 和 采用 前 一 
步 生 成 词 y._1 的 表示 向 量 ，x 和 hi_j 共 同 作为 g 的 输入 ， 计 算 当 前 步 的 隐 
状态 h.。 如 采 g 是 一 个 LSTM 单 元 ， 隐 状态 要 包含 一 个 用 作 记 忆 的 状 

仿 。 隐 状态 h 古 一 个 qd 维 癌 量 ， 经 线性 变换 成 为 一 个 | 维 向 量 ， 再 经 过 
一 个 Softmax 层 ， 计 算出 选择 词 的 概率 分 布 zz:， 并 采样 一 个 词 y.。 概率 


分 布 zl 是 一 个 条 件 概 率 p( x0), AAA y- RRE, xE 


为 一 个 空 字符 或 RNN 头 输入 和 暂 忽 略 ， 所 以 条 件 概率 写成 P0171,…1) 
， 进 而 生成 文字 序列 Y) .的 概率 为 ; 


Pr) = POA Yas Vr) = PODPO |W) Pr | Yis Yri). 


(13.31) 


SERRE, RNN AE CAF ie EK BS DE SPP , 
根据 每 个 条 件 概 率 挑选 一 个 词 ， 依 次 进行 ， 节 终 得 到 一 个 长 度 为 7 的 
HF ° 
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图 13.18 ”序列 建 模 LSTM 框 架 
问题 训练 序列 生成 器 的 优化 目标 通常 是 什么 ?GANs 框 
架 下 有 何不 同 ? 


TREE: kkk 
分 析 与 解答 


GANs 框 架 下 有 一 个 生成 器 Go 和 一 个 判别 器 D,。 对 于 本 问题 ， 生 
成 器 的 目标 是 生成 文字 序列 ， 高 度 地 模仿 真实 句子 ;判别 器 的 目标 是 
区 分 哪些 是 生成 郁 给 的 名 子 ， 哪 些 是 真实 数据 集中 挑 的 名 和 于 。 通 俗 地 
讲 ， 束 古 机 器 模仿 人 造句 ， 一 方面 要 让 模仿 尽 可 能 像 ， 一 方面 要 辨认 
哪些 是 机 器 说 的 、 哪 些 是 人 说 的 。 前 者 工作 由 生成 絮 人 负责， 后 者 工作 
ee E Mae AY TPE AR SEI FAA ae PEA o Fal as Ao 
CAPRA: 


max By. ,,,, [log D,(¥)]+ Erc, logi- D, O), 
(13.32) 
XAR GANS FFA ae B ERIE e 
如 果 没 有 GANs， 生 成 右 是 一 个 普通 的 序列 生成 器 ， 通 常会 采取 


什么 样 的 优化 目标 来 训练 它 ? 熟悉 语言 模型 的 人 ， 会 想到 最 大 似 然 估 
计 ， 即 : 


mie 2 log Pr 9) 


(13.33) 


这 需要 有 一 份 真实 数据 集 ， 了 Br =OP V>- -Vr ) 表 示 数 据 集 中 第 i 个 句 
子 ， 生 成 器 要 最 大 化 生成 它们 的 总 概率 。 从 数据 集 到 句子 ， 可 假设 句 
子 独立 同 分 布 ， 但 是 从 句子 到 词 ， 词 与 词 在 一 句 话 内 有 强 依 赖 性 ， 不 
能 假定 它们 相互 独立 ， 必 须 依 链 式 法 则 做 概率 分 解 ， 最 终 得 到 : 


max X log p(y{?;0)+...+log POP WP s. yO1;0) 
i=l ’ 


(13.34) 
转变 为 最 大 化 一 个 个 对 数 条 件 概 率 之 和 。 


GANs 框 架 下 ， 生 成 右 的 优化 目标 不 再 古 一 个 可 拆 解 的 联合 概 
率 ， 在 与 判别 器 的 博 穿 中 ， 以 假想 真 欺 驴 判 别 右 才 是 生成 如 的 目标 。 


AA ae PALE —t se, Ea OA AA ae ATT DIA 
上 整 句 话 ， 不 能 在 生成 一 半 时 融 拿 到 判别 硕 打 分 ， 故 不 能 像 最 大 似 然 
估计 那样 拆 解 目标 式 ， 转 为 每 个 词 的 优 人 化。 而且， 训练 生成 器 时 ， 也 
E E 
目标 为 : 


min E; c, [log - D, (7))] 


(13.35) 


表面 上 看 ， 这 与 原 GANs 中 生成 器 的 优化 目标 一 样 ， 问 题 在 于 生成 器 
答 出 的 是 离散 样本 ， 一 个 由 离散 词组 成 的 离散 句子 ， 不 像 原 GANs 中 
生成 图 片 ， 每 个 像素 都 是 一 个 连续 值 。 原 GANs 用 重 参数 化 技巧 构造 
生成 器 ， 直 接 对 采样 过 程 建 模 ， 不 去 显 性 刻画 样本 概率 分 布 。 

上 一 节 的 IRGAN， 生 成 器 生成 文档 序号 d 这 类 离散 数据 ， 不 能 
原 GANs 的 重 参数 化 技巧 。 离 散 数据 的 特性 ， 让 我 们 无 法 求解 目标 画 
数 对 d、d 对 生成 器 参数 9 的 梯度 。 而 且 ， 期 望 %e-co 的 下 脚 标 里 包含 参 
数 9， 需 对 期 望 求 梯度 YoBa-o,l*]， 不 得 不 显 式 写 出 概率 画 数 p(4 | 9;9) 


FESeqGAN? , 4 Bar LAY OC AR Fy | EAR, BE TSC E 
征 离 散 的 ， 如 独 13.19 所 示 。 联 想 强 化 学 习 理 论 ， 可 把 生成 序列 的 过 程 
看 成 是 一 连 串 动作 ， 每 步 动作 是 挑选 一 个 词 ， 即 动作 a=w， 每 步 状 态 
为 已 挑选 词组 成 的 序列 前 缀 ， 即 状态 % =O Yo), Boa Ea 
得 到 整个 序列 (71,》,…,yr)。 接 着 ， 判 别 器 收 到 一 个 完整 句子 ， 判 断 
古 真 古 假 并 打分 ， 这 个 分 数 束 是 生成 旭 的 奖励 。 训 练 生 成 带 束 古 要 最 
大 化 奖励 期 望 ， 优 化 目标 为 : 


max Ey -c 7 log — Dy Yr yy 


(13.36) 
或 梯度 增强 版 的 


max Ey 6, llog Dy Œr 中 


(13.37) 
H plog War) 就 是 生成 器 的 奖励 。 


强化 学 习 里 有 两 个 重要 和 概念， 策略 和 动作 值 画 数 。 前 者 记 
Go(a1s)= pla1s;0)， 表 示 状 态 s 下 选择 动作 a 的 概率 ， 体 现 模 型 根据 
状态 做 决策 的 能 力 ， 后 者 记 Q8(s,a)， 表 示 状 态 s 下 做 动作 qa 后， 根据 筑 
略 Go 完成 后 续 动 作 获 得 的 总 奖励 期 望 。 结 合 本 例 ， 前 六 1 个 词 已 挝 的 
状态 下 选 第 T 个 词 的 Q&(s,a) 为 : 


O° (s =Y.r 4=yr)= log D; Yr) 


(13.38) 
总 奖励 期 望 为 : 
By. es [0° (iri dr) = 76, (x | Sp Janae Oa (yr | Wy (Yar) 
(13.39) 


上 式 包 含 了 各 序列 前 缀 的 状态 下 策略 ， 以 及 一 个 最 终 的 奖励 。 如 果 对 
此 式 做 优化 ， 序 列 每 增加 一 个 长 度 ， 计 算 复 杂 度 将 呈 指 数 上 升 。 我 们 
不 这 么 干 ， 利 用 前 后 状态 下 动作 值 画 数 的 递归 关系 : 


o° (Fy 1, 7) z dG, (yin | Yr )Q° (Yi, Vis) 
Ji+l . 


(13.40) 


将 序列 未 端的 2"G Yr REA EIEIO (031), 8 — AMA 
的 生成 器 优化 目标 : 


7(0)= > Gor, | 5 )O" (5.91) 
yey f 


(13.41) 


该 优化 目标 的 含义 是 ， 在 起 始 状 态 sg 下 根据 策略 选择 第 一 个 词 y/， 并 
在 之 后 依旧 根据 这 个 策略 选 词 ， 总 体 可 得 奖励 的 期 望 。 此 时 序列 末端 
的 奖励 成 了 序列 初 端的 长 期 天 励 。 
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e 产生 | eeeeei | 
| eee | | 奖励 
[enres 
o | 策略 梯度 


图 13.19 SeqGAN 示 意图 


问题 3 有 了 生成 器 的 优化 目标 ， 怎 样 求解 它 对 生成 器 参 
数 的 梯度 ? 


难度 : ik Ik 


分 析 与 解答 


我 们 已 有 目标 函数 (0)， 现 在 对 它 求 梯度 YoJ(0)。 此 优化 目标 是 
一 个 求 和 ， 里 面包 含 两 项 :策略 Gg 和 动作 值 画 数 Q 2， 它 们 都 含 参 数 
6， 根据 求 导 法则 (u(xX)v(X)) = u'(x)v(x) + u(x)v(x)" FART HEV 9 Gy (0 | 50) 
FV 92" (50.91) 。 与 IRGAN 不 同 ，IRGAN 中 也 有 两 项 :策略 和 即时 奖 
励 ， 但 它 没有 长 期 奖励 ， 不 用 计算 动作 值 函 数 ， 而 且 即 时 奖励 不 依赖 
于 策略 ， 也 就 与 参数 9 无 天， 只 需求 策略 对 9 的 梯度 。 但 是 在 SeqGAN 
里 ， 策 略 对 9 的 梯度 和 动作 值 画 数 对 9 的 梯度 都 要 求 。 这 里 Co (1 | so) 是 
一 个 概率 画 数 ， 计 算 VoGy(7 | SATE, BE (So. WWE? 如何 计算 
WO (S51? 


这 确实 是 一 个 不 小 的 挑战 。 前 面 已 给 出 Q? 的 递归 公式 : 


Q° he Ja) = »G Yat |77)O° Che Yea) 


Yt+l 
(13.42) 


现在 我 们 推导 Yev(W) 


Vo7(O) = py (VoGo O, | So) s 0° (s,,,)+ Ga Yı | Sy) 7 V2" (saV) 
vey 
yey 


= -gf Go(% |50) * O° (s031) + Ga 159) °V ,| Ee (y2 17 ores] 


(13.43) 


像 上 面 ， 依 次 用 后 面 的 动作 值 2 Cao Ve VERIT AIEEE OY) 
， 最 终 可 得 : 


Yov(O) = YE, va] EY, Gh lZ) O° E a) 
yey ， 


(13.44) 


H hio = 5 © 


第 14 章 ”人 工 知 能 的 热门 应 用 


随 着 机 器 学 习 的 日 趋 火热 , “人 工 智能 ”一 一 词 似乎 占 尽 了 世人 的 
眼球 一 AlphaGo 一 吗 惊人 ， 目 动 构 驶 走 进 生活 、 窜 能 机 需 人 逐渐 成 为 
居家 标 配 。 人 工 智能 已 经 悄悄 来 到 我 们 的 吴 边 ， 与 生活 中 的 一 切 产 生 
密 不 可 分 的 联系 。 


前 13 间 通过 一 系列 面试 题 理 清 了 人 工 吞 能 领域 的 知识 脉络 ， 涵 主 
了 机 需 学 习 领 域 众多 基本 算法 和 模型 ， 不 仅 是 踏 入 人 工 智能 大 门 、 成 
为 优秀 数据 工程 师 的 基础 ， 更 可 以 将 统计 理论 、 数 学 模型 学 以 致 用 ， 
去 探寻 人 工 智能 时 代数 据 海洋 中 的 规律 与 本 源 。 只 有 深入 透彻 地 了 解 
各 种 机 老 学 习 方 法 、 理 论 体系 、 实 践 扩 巧 以 及 适用 场景 ， 才 能 在 实际 
问题 中 因地制宜 ， 量 体裁 家， 选择 合适 的 解决 方案 。 


“天 下 之 事 ， 闻 者 不 如 见 者 知之 为 详 ， 见 者 不 如 居 者 知之 为 尽 ”。 
本 章 将 着 重 实践 算法 、 模 型 、 理 论 于 真实 世界 的 广 交 天 地 ， 涵 盖 
告 、 游 戏 、 目 动 要 驶 、 机 需 翻 译 、 人 机 交互 等 诸多 领域 ， 为 读者 揭 开 
触手 可 及 的 人 工 知 能 那 层 神秘 的 面纱 。 


01 计算 广告 


告 是 当今 互联 网 商业 变现 最 重要 的 模式 之 一 。 数 字 广 告 是 大 部 
分 互联 网 巨头 最 主要 的 现金 流 。 根 据 Google 母 公司 Alphabet 2017 年 第 
一 季度 的 财报 ， 广 告 总 营 收 214.11 亿 美元 ， 占 其 总 营 收 的 86.5%。 
Facebook 的 广告 收入 占 比 更 加 伶 张 ， 达 到 惊人 的 98% ， 可 以 说 
Facebook 束 是 一 家 不 折 不 扣 的 广告 公司 。 除 此 之 外 ， 百 度 、 阿 里 巴 
巴 、 腾 讯 的 广告 部 门 也 均 是 各 公司 的 核心 部 门 。 阿 里 妈妈 、 腾 讯 广 点 
通 ` 百度 凤 虽 的 广告 部 门 ， 无 论 是 招聘 门槛 还 是 内 部 重视 程度 都 很 
ay o 


从 权威 媒体 机 构 Zenith 2017F KERIK IRE) HER 
( 见 图 14.1) ， 互 联网 公司 更 是 占据 了 半壁 江山 。 除 了 Alphabet 和 
Facebook 雄 霸 前 两 位 外 ， 百 度 排 第 4 名 ， 腾 讯 排 第 14 名 。 传 统 媒 体 中 排 
名 最 高 的 是 康 卡 斯 特 (Comcast) 媒体 集团 ， 屈 居 第 三 位 。 排 名 第 20 位 
的 CCTV 也 成 为 了 中 国 排名 最 高 的 传统 媒体 主 。 
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图 14.1 全 球 广告 收入 最 高 的 30 大 媒体 


数字 广告 的 发 展 史 还 要 追 济 到 1995 年 。 当 时 ， 以 雅虎 为 代表 的 门 
户 网 站 把 网 页 当 作 线 上 杂志 进行 售卖 ， 并 按照 约定 的 形式 进行 投放 。 
那 时 ， 数 字 广 告 与 传统 媒体 的 广告 售卖 方式 非常 相似 ， 只 是 把 内 容 从 
线 下 搬 到 了 线 上 。 从 1998 年 开始 ， 以 谷歌 为 代表 的 搜索 引擎 引领 了 淹 
流 。 与 门户 网 站 有 所 不 同 ， 搜 索引 擎 的 商业 变现 采用 的 是 与 搜索 服务 
相 结 合 的 付费 搜索 模式 ， 即 根据 用 户 的 即时 兴趣 (搜索 关键 词 ) 定 问 
投 送 广告 。 这 种 广告 一 般 采 用 竞价 的 方式 进行 售卖 ， 广 告 主 可 以 根据 
用 户 的 实时 兴趣 对 广告 投放 效果 进行 优化 ， 因 而 与 门户 网 站 相 比 ， 广 
告 的 投放 效果 具有 精准 度 更 高 的 特点 。2005 年 以 后 ， 在 线 视频 业务 的 
流量 不 断 柳 升 ， 代 表 网 站 有 YouTube、Hulu 等 ， 由 于 其 广告 投放 模式 
与 传统 电视 广告 类 似 ， 不 断 蛋 食 着 传统 电视 广告 的 市 场 。 


互联 网 广告 模式 之 所 以 得 到 各 大 广告 商 的 青睐 ， 有 以 下 几 点 原 
。 首先 ， 用 户 花 在 互联 网 上 的 时 间 越 来 越 多 ， 广 告 主 为 了 抓 住 年 轻 
的 一 代用 户 ， 必 须 加 大 互联 网 广告 的 投入 ; 其 次 ， 在 线 广告 的 投放 门 
槛 很 低 ， 在 Google 只 需 100 美 元 自助 开户 后 就 可 以 进行 广告 投放 ; 同 
H 上 时， 广告 投放 容易 实现 个 性 化 ， 并 经 由 A/B 测 试 进行 量化 的 评测 和 优 
化 。 随 着 互联 网 广告 在 商业 上 的 菠 盈 发 展 ， 其 背后 的 算法 模型 研究 也 
受到 越 来 越 多 的 关注 。2008 年 ， 在 第 十 九 届 ACM-SIAM 学 术 讨 论 会 
E, JEER K ARAR D Andrei Broder 提 出 了 计算 广告 学 
(Computational Advertising) 的 概念 。 他 认为 ， 计 算 广告 学 是 一 门 由 
信息 科学 、 统 计 学 、 计 算 机 科学 以 及 微观 经 济 学 等 学 科 交 叉 融 合 的 新 
兴 分 文学 科 ， 其 研究 目标 是 实现 语 境 、 广 告 和 受众 三 者 的 最 佳 匹 配 。 


在 介绍 计算 广告 的 常用 算法 模型 之 前 ， 先 对 互联 网 广告 的 主要 产 
品类 型 和 商业 模式 进行 介绍 。 这 里 按照 互联 网 广告 的 商业 模型 ， 将 其 
分 为 合约 广告 、 葛 价 广告 、 程 序 化 交易 广告 等 类 型 。 


合约 广告 一 般 在 门户 网 站 和 视频 网 站 中 较为 常见 ， 例 如 ，Hulu 广 
告 收入 的 绝 大 部 分 来 自 于 合约 广告 。 这 是 由 于 用 户 与 视频 广告 的 交互 
较 少 ， 缺 乏 点 击 等 反馈 数据 ， 不 宜 直 接 评 佑 后 续 的 转化 效果 。 合 约 广 
告 的 客户 通常 是 品牌 类 广告 主 ， 它 们 的 主要 诉求 是 向 公众 宣传 目 己 的 
品牌 形象 ， 并 不 显 式 地 评 佑 后续 的 转化 效果 。 合 约 广告 一 般 以 CPM 

(Cost per mille, FREARK) 进行 结算 ， 即 每 完成 一 千 次 曝光 流 
量 平台 向 广告 主 收取 固定 的 成 本 。 图 14.2 (a) 在 Hulu 网 站 上 观看 美剧 


(EEEE) (Greys Anatomy) 上 时， 浏览 器 展示 的 视频 广告 截 
o 


竞价 广告 最 重要 的 形式 是 搜索 广告 。 搜 索 广 告 的 标的 物 是 关键 
词 ， 每 个 搜索 广告 可 以 对 一 些 特定 的 关键 词 进行 出 价 。 用 户 输入 的 查 
询 与 广告 竞标 的 关键 词 进行 匹配 ， 检 索 出 所 有 符合 条 件 的 广告 ， 并 选 
择 其 中 的 一 条 或 儿 条 广告 与 搜索 的 网 页 结 采 一 起 展示 ， 通 常 广告 排 在 
网 页 之 前 。 搜 索 广 告 一 般 按 点 击 结算 ， 在 用 户 点 击 之 后 按照 广告 主 对 
该 天 键 词 的 出 价 收费 ， 没 有 点 击 则 不 收费 ， 因 此 点 击 率 预 估算 法 对 芜 
价 广 告 的 优化 至 关 重 要 。 图 14.2 b) 展示 了 在 百度 中 搜索 “深度 学 
l aa al 其 中 第 一 条 即 竞价 系统 所 选择 的 广告 ， 在 
下 方 有 “广告 "字样 。 


程序 化 交易 广告 能 够 让 广告 主 更 加 灵活 地 选择 自己 的 受众 群体 和 
曝光 时 机 。 在 每 一 次 展示 机 会 到 来 之 时 ， 广 告 交 易 平 台 将 流量 的 相关 
信息 和 竞价 请 求 发送 给 需求 方 平台 (Demand Side Platform, DSP) , 
需求 方 平台 根据 流量 的 实际 情况 代表 广告 主 进行 出 价 ， 价 高 者 得 到 本 
次 的 曝光 机 会 。 程 序 化 交易 广告 通常 以 CPA (Cost Per Action， 每 次 行 
动 成 本 ) 的 方式 进行 结算 ， 因 此 需要 综合 考虑 广告 预 估 的 点 击 率 、 转 
化 率 等 因素 。 图 14.2 (c) 为 在 CSDN 的 某 个 博客 页 面 上 ， 京 东 赢 得 一 
次 实时 竞价 机 会 而 展示 的 一 个 商品 广告 。 
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(c) 程序 化 交易 广告 
图 14.2 ”常见 的 广告 类 型 


不 同类 型 的 广告 在 广告 系统 设计 上 有 所 区 别 ， 比 如 合约 广告 一 般 
不 需要 考虑 广告 的 实际 效果 ， 所 以 没有 CTR 模 块 ; 程序 化 交易 广告 需 
要 对 接 广告 交易 平台 等 第 三 方 信息 ， 所 以 需要 更 多 的 数据 对 接 模 块 。 
但 忌 体 来 襄 ， 厂 告 系 统 的 整体 架构 是 通用 的 。 图 14.3 是 一 个 人 简化 的 广 
告 系 统 框 架 ， 主 要 展示 了 与 算法 相关 的 模块 ， 而 对 其 他 系统 模块 有 所 
省 略 。 系 统 由 分 布 式 计算 平台 、 流 式 计算 平台 和 广告 投放 机 三 大 部 分 
组 成 。 分 布 式 计算 平台 负责 根据 海量 的 投放 日 志 进 行 批 处 理 计算 ， 得 
到 算法 分 析 和 建 模 的 结果 ， 例 如 用 户 画 像 、 点 击 率 转化 率 建 模 等 算 
法 都 是 在 分 布 式 计 算 平 台 上 运行 的 ， 并 将 得 到 的 用 户 标 签 、 模 型 特征 
和 参数 等 数据 更 新 至 数据 库 中 。 流 式 计算 平台 人 负 贡 收集 和 计算 有 实时 
需求 的 用 户 标 签 、 特 征 、 点 击 反 馈 等 数据 ， 并 将 它们 实时 地 同步 到 数 
据 库 中 去 。 当 一 个 请 求 到 来 时 ， 广 告 投放 机 根据 请 求 对 应 的 用 户 、 上 


下 文 等 信息 以 及 数据 库 当 前 的 状态 进行 广告 检索 、 排 序 和 选择 。 一 次 
广告 投放 完成 之 后 ， 相 关 的 记录 将 被 流 式 计算 平台 及 时 地 获取 并 处 
理 ， 同 时 它们 也 被 收集 到 投放 日 志 中 ， 供 分 布 式 计算 平台 稍 后 使 用 。 


广告 系统 的 各 个 算法 模块 ， 不 仅 与 Spark、HDFS、Kafka 等 大 数据 
工具 息 息 相关 ， 更 涉及 大 量 机 咽 学 习 的 知识 。 如 果 要 成 为 广告 算法 工 
程 师 ， 在 打 牢 算法 基础 的 同时 ， 还 需要 对 广告 的 商业 模型 ， 各 模块 的 
业务 功能 有 较 深 的 了 解 。 下 面 就 对 广告 系统 各 个 模块 涉及 的 算法 和 机 
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图 14.3 广告 系统 架构 图 


四 用户 画像 


用 户 画 像 是 计算 广告 学 的 核心 组 成 部 分 之 一 ， 在 合约 广告 、 搜 索 
广告 、 程 序 化 交易 广告 等 产品 形式 中 广泛 存在 。 在 合约 广告 中 ,广告 
主 可 以 根据 目 喘 品牌 的 受众 群体 指定 合适 的 定 同 条 件 ， 以 市 省 成 本 ; 
搜索 广告 和 程序 化 交易 广告 可 以 根据 用 户 的 画像 对 该 用 户 对 各 广告 的 
扩 击 率 和 转化 率 进行 更 精确 的 预 佑 ， 从 而 优化 整体 的 投放 效果 。 


监督 学 习 和 非 监督 学 习 技 术 在 用 户 画 像 中 都 得 到 了 广泛 的 应 用 。 
例如 ， 性 别 预测 问题 束 是 一 个 典型 的 监督 学 习 问题 。 我 们 根据 用 户 填 
写 的 性 别 信 息 可 以 得 到 一 些 用 户 的 性 别 ， 而 对 于 另外 一 些 用 户 我 们 无 


法 得 知 他 们 的 准确 性 别 ， 但 是 有 些 广告 主要 求 针 对 特定 的 性 别 进行 品 
有 牌 推 广 。 例 如 ， 一 个 主要 经 营 男 闭 的 广告 主 可 能 需要 对 广告 的 受众 定 
回 设 为 男性 。 为 了 满足 广告 主 的 类 似 需求 ， 我 们 需要 通过 用 户 过 去 的 
行为 和 其 他 己 有 特征 对 用 户 性 别 进行 建 模 和 预测 ， 比 如 通过 茶 个 用 户 
经 第 观 看 足球 、 拳 击 等 项 目的 历史 行为 ， 预 测 出 他 是 男性 的 概率 更 
高 ， 对 于 其 他 的 用 户 标 签 也 是 类 似 的 。 只 要 我 们 有 了 足够 多 的 标 广 样 
本 ， 都 可 以 用 监督 学 习 的 方式 对 用 户 标签 进行 建 模 和 预测 。 


监督 学 习 的 模型 可 以 采用 逻辑 回归 、 文 持 向 量 机 、 决 策 树 、 随 机 
和 森林、 梯度 提升 决策 树 、 前 同 神经 网 络 等 ， 采 用 的 特征 因 具 体 的 业务 
而 异 。 例 如 ， 在 搜索 引 敬 中 ， 可 以 根据 用 户 的 搜索 和 浏览 历史 来 对 用 
户 的 性 别 进行 预测 ， 从 而 实现 更 精准 的 搜索 广告 投放 。 参 考 文献 [45] 
利用 一 个 大 型 网 站 的 历史 访问 数据 进行 实验 ， 输 入 的 特征 为 该 用 户 搜 
索 和 浏 席 过 的 历史 网 页 文本 ， 其 中 的 每 个 词 作为 单独 的 一 维 等 征 ， 基 
终 分 类 器 学 习 到 的 较为 显著 的 文本 特征 如 图 14.4 所 示 。 可 以 发 现 ， 在 
预测 女性 时 ， 较 为 重要 的 特征 是 孩子 、 食 物 、 家 帮 等 ， 而 对 于 男性 来 
说 ， 较 为 显 痢 的 特征 是 体育 、 车 、 因 特 网 等 。 所 以 ， 对 特征 的 学 习 结 
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图 14.4 男性 和 女性 的 文本 特征 


另外 一 大 类 用 户 画像 方法 是 采用 非 监督 学 习 。 非 监督 学 习 的 目的 
征 发 现 数据 本 号 存 在 的 规律 ， 并 不 需要 使 用 市 标注 的 数据 。 根 据 用 户 
以 往 的 行为 和 已 有 的 特征 ， 我 们 可 以 将 用 户 涌 为 一 些 特定 的 类 别 。 对 
于 每 一 类 用 户 ， 虽 然 很 难 描述 他 们 所 对 应 的 确切 标签 ， 但 是 可 以 知道 
他 们 拥有 很 高 的 相似 度 ， 并 据 此 预期 他 们 对 广告 具有 某 种 相似 的 兴 


趣 。 这 样 ， 通 过 应 用 率 类 技术 ， 并 将 得 到 的 案 类 结 采 用 于 点 击 率 预 
估 、 广 告 排序 与 选择 ， 通 常 能 够 带 来 明显 的 效果 提升 。 常 用 的 聚 类 方 
法 有 K 均 值 、 高 斯 混合 模型 、 主 题 模 型 等 ， 它 们 部 属于 非 监 督学 习 的 
范畴 。 


参考 文献 [46] 是 一 个 用 非 监 督学 习 的 方法 挖掘 用 户 兴 趣 主题 的 例 
子 。 该 论文 结合 了 用 户 在 移动 端的 搜索 内 容 和 上 下 文 特征 (时间 、 地 
点 等 ) ， 利 用 主题 模型 对 用 户 的 行为 数据 进行 建 模 。 图 14.5 展 示 了 两 
个 挖掘 出 来 的 主题 实例 ， 其 中 左边 的 主题 可 以 理解 为 在 工作 日 的 早晨 
搜索 股票 的 相关 信息 ;右边 的 主题 可 以 理解 为 在 周末 的 晚上 搜索 率 会 
的 酒吧 ;IsSRelevant 表 示 该 特征 的 取 值 与 我 们 对 主题 的 解读 是 否 相关 ， 
这 是 一 种 人 工 的 判断 。 可 以 发 现 ， 绝 大 多 数 的 特征 都 是 与 主题 相关 
的 ， 说 明 主题 挖掘 的 效果 较 好 。 


‘Text Information IsRelevant|'Text Information isRelevant 
stoc S cocktall lounges i: 
ewbc stock Yes sports bars Yes 
culos de caseras Yes night clubs Yes 
caty stock Yes restaurants No 
twitter search No carnivals Yes 
coh stock Yes amusement places Yes 
cellufun No fairgrounds Yes 
Eames No taverns Yes 
monster tits No norwalk ame No 
dis stock Yes barbecue restaurants No 
Context Information IsRelevant| Context Information IsRelevant 
WorkdayOrWeekend= Workday Yes Period=Evening Yes 
PlaceType=Home Yes Workday Or Weekend= Weekend Yes 
Day=Wendensday Yes Day=Saturday Yes 
Period=Morning Yes Day=Tuesday Lgl 
Period=Early_Morning Yes PlaceType=Other Ye 
Day='Tuesday Yes Surrounding’ Type=Food & Dining Yes 
Surrounding Type=None No Period= Afte rnoon Yes 
Time= 07 : 00 ~ 08 : 00 Yes Time= 17 : 00 ~ 18 : 00 Yes 
Time= 06 : 00 ~ 07 : 00 Yes Time= 19 : 00 ~ 20 : 00 Yes 
CityName=Glendale No Time= 18:00 ~ 19: 00 Yes 
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e 扩 击 率 预 估 


扩 击 率 预 估 是 效果 类 矿 a ST ACE 
告 效 果 ， 首 先 要 对 广告 展示 之 后 的 效果 〈 即 点 击 率 、 转 化 率 等 ) 有 一 
个 准确 的 判断 ， 才 能 据 此 进行 合理 的 选择 与 投放 。 在 搜索 广告 中 ， 
般 通 过 广告 的 点 击 数量 进行 效果 的 评估 和 结算 ， 因 此 点 击 率 预 估 的 准 
确 性 在 效 采 优化 中 起 到 非 钊 关键 的 作用 。 o 如 朱 最 终 评 佑 效 朱 的 指标 是 
转化 ， 那 么 还 需要 同时 对 点 击 之 后 的 转化 率 进行 估计。 在 很 多 场景 


中 ， 实 际 的 转化 数据 非常 稀少 ， 很 难 直 接 利用 转化 数据 对 模型 进行 训 
练 ， 所 以 经 党 退 而 求 其 次 ， 对 二 次 跳 转 、 加 入 购物 车 等 行为 进行 建 
模 。 对 转化 、 二 次 跳 转 、 加 入 购物 车 等 行为 进行 建 模 的 原理 与 点 击 率 
预 们 十 分 类 似 ， 因 此 仪 以 点 击 率 预 估 为 例 对 算法 流程 以 及 常用 模型 进 


行 介绍 。 


点 击 率 预 估 可 以 抽象 成 为 一 个 二 分 类 问题 。 它 所 解决 的 问题 是 : 
给 定 一 个 请 求 以 及 与 该 请 求 所 匹配 的 广告 ， 预 测 广告 展示 之 后 获得 点 
击 的 概率 。 标 注 可 以 从 实际 的 投放 数据 中 获得 ， 在 历史 的 投放 结果 
中 ， 获 得 了 点 击 的 记录 标注 为 1， 其 余 标 注 为 0° 图 14.6 为 点 击 率 预 估 
模型 中 的 一 条 训练 /测试 数据 记录 的 示意 1*?1。 左 边 的 方 框 中 列 出 了 这 条 
数据 记录 对 应 的 特征 ， 包 括 与 用 户 (User tags) ` EFX (Date, 
City, Ad exchange，Domain，...) 、 广 告 主 (AdId) 、 创 意 (Ad 
size) 等 相关 的 特征 。 在 训练 记录 中 ， 如 果 这 条 记录 最 终 发 生 了 点 
击 ， 则 记录 为 1， 人 否则 记录 为 0; 在 预测 时 ， 我 们 需要 预测 这 条 记录 发 
生 点 击 的 概率 ， 即 CTR (Click-Through Rate) ° 


s Date: 20160320 

*Hour: 14 

s Weekday: 7 

uIP: 119.163.222.* 

e Region: England 

«City: London 

. je 

Country: UK iii E ER 
预 估 点 击 率 (0.15) 


s Ad Exchange: Google 

e Domain: yahoo.co.uk 

* OS: Windows 

s Browser: Chrome 

s Ad size: 300*250 

*Ad ID: al890 

s User tags: Sports, Electronics 


特征 域 标签 / 预测 


图 14.6 一 条 点 击 率 预 估 的 数据 记录 


点 击 率 预 估 的 公开 数据 集 可 以 参见 2014 年 Criteo (全 球 领先 的 DSP 
公司 ) 在 Kaggle 上 发 起 的 CTR 预 估 竞 赛 。 训 练 集 是 连续 7 天 的 Criteo 广 
告 展 示 数 据 ， 里 面包 含 点 击 和 非 点 击 数据 ， 总 共 4000+ 万 条 ， 其 中 对 
负 样 本 进行 了 不 同 采样 率 的 采样 ; 测试 集 是 紧 接 着 训练 集 之 后 一 天 的 
广告 展示 数据 ， 总 共 600+ 万 条 ， 采 样 方式 和 训练 集 一 致 。 


扩 击 率 预 估 主 要 分 为 样本 采样 、 特 征 抽取 与 组 合 、 模 型 训练 、 模 
型 评 佑 等 步 又， 下 面 分 别 进行 介绍 。 


。 样本 采样 


在 点 击 率 预 佑 时 ， 通 常 要 对 负 样本 进行 采样 ， 这 走 因 为 在 点 击 率 
预 估 的 二 分 类 问题 中 ， 点 击 数 通常 要 远 远 小 于 总 曝光 数 〈PC 端 展示 广 
告 的 点 击 率 一 般 在 0.19% 一 19% 之 间 ) ， 这 将 导致 正 负 样本 严重 不 均衡 。 
如 有 果 点 击 率 为 0.1%， 那 么 人 简单 地 将 所 有 样本 都 预测 为 负 样 本 ， 分 类 器 
的 准确 率 也 可 以 达到 99.9%， 这 在 一 些 分 类 融和 训练 算法 中 会 存在 问 
题 。 更 重要 的 是 ， 一 条 负 样 本 所 包含 的 信息 相 比 于 正 样 本 来 说 较 少 ， 
如 采 我 们 能 够 对 人 负 样 本 进行 采样 ， 束 可 以 减少 训练 时 间 ， 或 者 能 够 在 
同样 的 训练 时 间 中 处 理 更 多 的 正 样本 ， 从 而 在 训练 时 间 不 变 的 条 件 下 
取得 更 好 的 效果 。 需 要 指出 的 是 ， 样 本 在 采样 之 后 会 改变 数据 的 分 
布 ， 因 此 在 预 估 点 击 率 时 还 需要 将 原始 分 布 还 原 。 


。 特征 抽取 与 组 合 


抽取 与 用 户 、 上 下 文 、 广 告 主 、 创 意 等 相关 的 各 维特 征 ， 并 对 这 
些 特征 进行 组 合 。 这 一 步 听 起 来 是 一 个 比较 简单 的 过 程 ， 但 是 实际 上 
非 党 重要， 里面 包含 着 各 种 学 问 。 尤 其 是 在 传统 的 机 旭 学 习 模 型 中 ， 
等 征 工程 的 好 坏 将 对 模型 的 效果 产生 决定 性 的 影响 ， 并 化 了 算法 工程 
师 天 部 分 的 时 间 。 在 点 击 率 预 人 中， 捕捉 特征 之 间 的 交互 非常 重要 ， 
由 于 一 些 特征 表达 了 广告 的 性 质 ， 另 一 些 特征 表达 了 用 户 的 兴趣 ， 因 
此 需要 学 习 到 两 类 特征 的 交互 ， 才 能 更 加 准确 地 对 点 击 率 进 行 估计 。 
传统 的 机 器 学 习 模 型 无 法 直接 捕捉 到 两 类 特征 之 间 的 交互 ， 因 此 需要 
显 式 地 进行 特征 交 义 ， 即 将 任意 两 个 特征 组 合 起 来 作为 一 维新 的 特 
征 。 这 样 做 可 能 会 遇 到 维度 爆炸 的 问题 ， 由 于 我 们 并 不 知道 哪些 特征 
的 交互 最 好 捕 提 ， 因 此 需要 笠 试 所 有 可 能 的 特征 组 合 。 实 践 中 ， 经 党 
采用 梯度 提升 决策 树 和 分 解 机 对 原始 特征 进行 预 处 理 。 在 梯度 提升 决 
策 树 中 ， 每 一 棵 决策 树 的 每 一 条 从 根 到 叶子 结 点 的 路 径 可 以 作为 一 种 
显著 的 特征 组 合 ， 然 后 将 所 有 的 特征 组 合作 为 逻辑 回归 模型 的 输入 再 
进行 训练 ( 见 图 14.7) 。 这 是 Facebook 在 2014 年 发 表 的 工作 [81， 后 来 
被 证 明 在 很 多 应 用 场景 中 都 取得 了 不 错 的 效 有 末 。 对 于 分 解 机 来 说 ， 每 


个 特征 可 以 被 分 解 成 相同 空间 中 的 K 维 向 量 表示 ， 它 们 的 交互 强 弱 可 
以 通过 向 量 的 点 积 表达 ， 因 此 将 特征 的 向 量 表示 作为 逻辑 回归 模型 的 
输入 ， 可 以 帮助 算法 更 好 地 捕捉 到 特征 交互 对 点 击 率 的 影响 。NTU 
CSIE ML Group 在 Criteo 发 起 的 CTR 预 佑 竞赛 中 ， 有 团队 同时 利用 梯度 
提升 决策 树 和 分 解 机 进行 特征 工程 ， 获 得 了 竞赛 的 第 一 名 。 


> 输入 特征 


1 7 特征 变换 
=l 


> 线性 分 类 器 


图 14.7 Facebook 的 CTR 预 估 模 型 


进入 到 深度 学 习 时 代 ， 深 度 神 经 网 络 为 我 们 提供 了 一 种 更 加 自动 
地 抽取 组 合 特征 的 方式 ， 可 以 直接 端 到 端 地 对 点 击 率 进 行 建 模 和 预 
测 。 图 14.8 是 一 种 端 到 端的 深度 CTR 预 测 模型 ， 其 中 原始 输入 为 最 简 
单 的 独 热 编 码 ， 接 着 通过 预 训练 分 解 机 将 输入 表示 为 艇 入 的 向 量 ， 然 
后 通过 三 个 全 连接 层 ， 最 后 应 用 Sigmoid 激 活 范 数 输出 点 击 率 的 预测 结 
果 [49] o 


全 连接 层 


KE (2) 


全 连接 层 


Kafe (LI) 


全 连接 层 


秽 密 特征 层 CZ) 
使 用 因子 分 解 机 进行 Embedding 
特征 内 部 全 连接 


系数 二 值 特征 


图 14.8 深度 CTR 预 估 模 型 


在 实际 的 产品 线 中 ， 我 们 可 能 不 方便 推翻 以 前 的 架构 ， 全 部 改 为 
利用 端 到 端的 深度 学 习 模型 对 点 击 率 进 行 建 模 。 这 时 ， 将 深度 学 习 模 
型 输出 的 中 间 结 采 当 作 高 层 语义 特征 ， 输 入 到 传统 的 浅 层 机 器 学 习 模 
型 中 ， 通 第 也 能 够 取得 不 错 的 效 霖 提升 。 


。 模 型 训练 


进行 完 特征 抽取 与 组 合 ， 并 选择 一 个 合适 的 模型 后 ， 我 们 就 可 以 
对 模型 进行 训练 了 。 模 型 的 训练 与 调 优 过 程 也 强 藏 着 许多 经 验 与 知 
识 。 例 如 ， 在 线 上 进行 实时 点 击 率 预 估 的 时 候 ， 我 们 通常 希望 模型 被 
全 部 加 载 到 内 存 中 ， 从 而 保证 服务 的 响应 时 间 。 因 此 ， 需 要 在 模型 的 
稀疏 性 和 预测 效果 之 间 进 行 一 个 折 中 ， 对 模型 的 稀疏 性 有 一 定 的 要 
求 。 但 是 ， 如 果 采 用 L2 范 式 对 模型 进行 正则 化 ， 很 难得 到 完全 稀 玻 的 
结果 ， 更 好 的 方案 是 采用 L1 正 则 。 这 就 要 求 面试 者 了 解 L1 和 L2 正 则 化 
的 特点 和 相关 理论 。 例 如 ， 在 编写 深度 神经 网 络 模型 对 点 击 率 进行 建 
模 和 训练 时 ， 我 们 需要 检验 程序 计算 出 的 梯度 是 否 正确 ， 这 需要 对 梯 
度 验证 技术 有 所 了 解 。 另 外 ， 由 于 深度 神经 网 络 模型 的 假设 空间 是 非 
凸 的 ， 有 时 在 使 用 随机 梯度 下 降 法 优化 时 会 陷入 局 部 最 优 解 难以 自 
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进 的 方法 进行 训练 。 


e 模型 评估 


模型 训练 完成 之 后 ， 就 需要 对 其 效果 进行 合理 的 评估 了 。 模 型 评 
估 主 要 分 为 离线 评估 和 在 线 评估 两 个 阶段 。 离 线 评估 的 任务 是 设计 合 
理 的 实验 和 指标 ， 使 得 离线 评估 的 结果 和 将 来 上 线 之 后 的 结果 尽量 吻 
合 。 由 于 单个 指标 通常 只 能 评估 模型 的 某 个 方面 ， 我 们 通常 需要 采用 
不 同 的 指标 来 对 模型 的 效果 进行 综合 评价 。 以 点 击 率 预 估 为 例 ， 离 线 
阶段 常用 的 评估 指标 有 Log Loss 和 AUC ° Log Loss 衡 量 预测 点 击 率 与 
实际 点 击 率 的 吻合 程度 ， AUC 评 价 模型 的 排序 能 力 ， 即 获得 点 击 的 样 
本 应 尽量 排 在 未 获得 点 击 的 样本 前 面 。 一 方面 ， 我 们 希望 预测 的 点 击 
率 尽 可 能 精准 ;， 另 一 方面 ， 又 希望 更 有 可 能 获得 点 击 的 广告 被 尽 可 能 
地 排列 在 前 面 。 所 以 要 求 两 个 指标 都 得 到 比较 好 的 结果 ， 至 于 哪个 指 
标 作 为 主要 指标 要 视 具体 的 业务 场景 而 定 。 如 果 一 个 模型 在 离线 评估 
阶段 取得 了 好 的 结果 ， 下 一 个 阶段 惑 是 进行 线 上 A/B 测 试 了 。 这 一 环 
廊 在 模型 正式 上 线 之 前 至 天 重要 ， 因 为 即使 一 个 精心 设计 的 离线 实验 
仍然 与 线 上 的 环境 有 所 差别 。 如 何 设 计 一 个 合理 的 A/B 测 试 方案 也 是 
一 个 优秀 的 广告 算法 工程 师 必须 掌握 的 。 


a 广告 检索 


广告 检索 阶段 的 任务 是 根据 和 查询 、 受 众 等 定 同 条 件 检索 出 所 有 满 
足 投放 条 件 的 广告 。 例 如 ， 根 据 查询 的 模糊 匹 瑟 ， 要 求 将 与 该 查询 文 
本 在 语义 上 相近 的 广告 尽 可 能 地 召回 ， 供 下 一 阶段 广告 排序 和 选择 算 
法 使 用 。 这 一 阶段 主要 以 召回 率 为 评估 指标 ， 因 为 被 漏 挥 的 广告 在 后 
面 束 没有 机 会 被 展示 出 来 了 。 解 决 模糊 匹配 问题 的 经 典 方法 是 查询 扩 
展 E0。 通 俗 地 讲 ， 就 是 为 当前 的 查询 找到 一 组 语义 相关 的 查询 ， 然 后 
至 少 被 其 中 一 个 查询 检索 到 的 广告 都 可 以 加 入 备 选 集合 。 碍 询 扩展 本 
质 上 是 计算 两 个 查询 之 间 的 文本 相似 度 ， 或 者 求 出 给 定 一 个 查询 的 条 
件 下 生成 男 一 个 查询 的 概率 。 前 者 可 基于 主题 模型 、Word2Vec 等 算法 
实现 ， 后 者 可 利用 深度 神经 网 络 等 方法 进行 建 模 。 


@ 广告 排序 人 选择 


不 同 的 广告 业务 场景 在 此 步骤 中 的 决策 方式 是 不 同 的 。 对 于 合约 
广告 来 说 ， 我 们 的 目标 是 满足 合约 中 规定 的 每 日 曝光 数量 要 求 (R 
光 数 量 不 足 时 会 受到 和 您 昼 ) ， 并 不 涉及 点 击 率 预 估 ， 因 此 广告 的 排序 
和 选择 问题 可 以 被 建 模 成 带 约 束 的 优化 问题 。 图 14.9 是 使 用 优化 问题 
的 建 模 思 路 ， 左 侧 的 每 一 个 节点 代表 一 个 广告 ， 右 侧 的 每 一 个 节点 代 
表 一 类 曝光 机 会 。 我 们 将 流量 按照 特征 划分 为 大 干 个 分 段 ， 每 个 分 段 
代表 了 一 类 曝光 机 会 ， 每 一 个 合约 由 于 其 定 问 条 件 的 限制 ， 只 能 在 某 
些 分 段 的 流量 上 进行 投放 。 于 是 广告 的 选择 可 以 表达 成 为 一 个 二 部 图 
匹配 问题 ， 优 化 的 目标 是 使 得 总 的 投放 收入 最 大 化 50 o 
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图 14.9 ”合约 广告 的 选择 问题 


假设 qj 为 第 j 个 合约 的 总 需求 量 ，s; 为 第 类 曝光 机 会 的 供给 量 ，v 为 
第 j 个 合约 的 单 次 曝光 收入 (CPM) ，xjE[0,1] 为 第 i 类 曝光 机 会 到 来 
时 ， 选 择 第 j 个 合约 的 广告 进行 展示 的 概率 。 目 标 函 数 如 下 ， 即 使 得 总 
的 投放 收入 最 大 化 。 


max) Xjv,s, 
Ly 
(14.1) 
另 有 如 下 3 个 约束 : 
Vj, X; Sixi 疡 d 


(14.2) 


Vi, 2 Xis1 


(14.3) 


Vi, j, Xii>0 


(14.4) 


其 中 式 (14.2) 规定 每 个 合约 规定 的 总 曝光 量 必须 得 到 满足 ! 式 
(14.3) 表示 每 类 曝光 机 会 选择 各 个 合约 的 总 概率 之 和 应 该 小 于 等 于 
1; R (14.4) 表达 概率 xy 的 非 负 性 。 对 上 述 问 题 求解 即 可 找到 一 个 最 
优 解 ， 当 然 在 总 供给 量 不 够 的 情况 下 ， 上 面 的 问题 也 可 能 无 解 ， 这 时 
需要 在 式 (142) 中 添加 一 个 变量 w， 代 表 合 约 j 的 欠 曝 光量 (under 
delivery) ， 且 约束 变更 为 ，Zi sxi+uP>di。 与 此 同时 ， 在 目标 画 数 中 也 
需要 加 入 欠 曝 光量 所 带 来 的 惩罚 ， 具 体 的 公式 参照 文献 [51] 。 


在 范 价 广告 的 模式 下 ， 广 告 投放 机 根据 点 击 率 预 估 的 结 来 对 广告 
进行 排序 和 选择 。 对 于 一 个 新 上 线 的 广告 ， 如 采 没 有 充分 的 上 曝光， 是 
无 法 对 其 点 击 率 做 出 准确 预测 的 。 这 时 如 采 我 们 仅 采 用 利用 的 方案 ， 
会 倾 问 于 选择 其 他 点 击 率 更 高 的 广告 ， 或 给 出 一 个 较 低 的 出 价 。 长 此 
以 往 ， 该 广告 很 可 能 下 失足 够 的 曝光 机 会 ， 我 们 也 永远 无 法 对 其 点 击 
率 进 行 合理 的 估计 。 因 此 ， 我 们 需要 对 曝光 量 不 足 的 广告 进行 探索 ， 
但 仅仅 采用 探索 的 方案 显然 也 是 不 行 的 。 对 于 已 有 足够 曝光 量 的 广 
告 ， 还 是 应 该 遵循 点 击 率 预 估 的 结果 进行 排序 、 选 择 和 出 价 。 探 索 与 
利用 走 一 对 歼 盾 的 主体 ， 需 要 在 其 间 找 到 平衡 ， 才 能 达到 最 佳 的 投放 
效果 ， 这 也 是 强化 学 习 所 重点 关注 与 解决 的 问题 。 在 强化 学 习 的 场景 
下 ， 一 开始 我 们 并 没有 足够 多 的 市 标注 样本 ， 需 要 与 环境 进行 交互 
(投放 广告 ) ， 通 过 获得 反馈 的 方式 来 改进 模型 ， 最 终 获 得 一 个 最 优 
的 投放 筑 略 。 在 程序 化 交易 的 场景 中 ， 需 求 方 平 台 还 需要 对 克 定 的 广 
告 进行 出 价 ， 如 何 优化 出 价 也 是 一 个 独立 的 研究 课题 ， 在 这 里 束 不 展 
开 了 ， 有 兴趣 的 读者 可 以 参考 文献 1。 


Sx EA, We SAM KAILA AS TARTANA AT 
面 面 。 要 想 成 为 一 个 优秀 的 广告 算法 工程 师 ， 除 了 熟练 掌握 业务 流程 
之 外 ， 还 要 为 各 类 算法 、 理 论 和 方法 打 好 坚实 的 基础 ， 并 在 实践 中 不 
断 掌 握 算法 优化 的 经 匠 。 在 面试 中 ， 关 于 理论 、 方 法 、 实 践 经 验 等 相 


天 的 问题 都 会 涉及 ， 所 以 也 请 各 位 读者 能 够 认真 阅读 前 面 的 面试 题 和 
解答 ， 为 以 后 的 工作 打下 坚实 的 基础 。 


02 ”游戏 中 的 人 工 智能 


BAAR SHAME, HLA SWRA KR Ree oR 
乐 为 一 体 的 活动 ， 传 说 四 千年 前 就 有 了 围棋 。 几 个 世纪 以 来 ， 人 们 创 
造 出 不 计 其 数 的 各 类 游戏 ， 比 如 和 象棋、 国际 象 可 、 跳 棋 、 扑 元 、 左 
将 、 桌 游 等 。 半 个 多 世纪 前 ， 电 子 计 算 机 技术 诞生 ， 目 此 游戏 焕发 了 
新 貌 。1980 年 前 后 ， 电 视 游戏 (Video Game) 和 街机 游戏 (Arcade 
Game) 开始 进入 人 们 视线 ， 当 时 还 是 一 个 小 众 活动 。20 世 纪 90 年 代 ， 
你 是 否 还 记得 风 靡 街头 的 游戏 机 厅 ， 以 及 走 进 千家 万 户 的 小 霸王 学 习 
机 。 然 后 ， 个 人 计算 机 的 普及 将 游戏 市 入 了 一 个 轩 新 的 时 代 。 当 前 ， 
电子 游戏 不 限于 电脑 ， 手 机 、 平 板 等 各 类 带 屏 平台 都 被 游戏 一 一 拿 
下 。2010 年 ， 游 戏 已 是 数 千 亿 美元 的 产业 ， 人 全球 市 场 利 润 远 超 其 他 娱 
乐 业 。 


现在 ， 定 义 游戏 的 边界 不 再 清晰 。 周 末 聚 一 帮 好 友 吃 着 串 玩 狼人 
东 ， 是 一 种 游戏 ， 深 夜 与 二 里 之 外 素 不 相识 的 网 友 ， 组 织 一 小 队 去 做 
任务 ， 也 是 一 种 游戏 。 然 而 游戏 不 只 有 娱乐 功能 ， 还 可 以 教 孩 子 学 英 
文 、 帮 新 兵 邵 悉 战场 环境 ， 游 戏 营 造 出 的 奖励 机 制 和 现场 体验 ， 让 学 
习 过 程 事半功倍 。 心 理学 家 认为 ， 人 们 玩 游戏 时 的 娱乐 体验 ， 构 建 在 
智力 活动 之 上 。 游 戏 中层 层 关卡 设计 ， 代 表 不 同 级别 的 智力 难度 ， 玩 
家 在 过 关 之 前 ， 需 要 投入 一 定 的 脑力 ， 观 察 、 思 考 、 实 验 、 学 习 并 动 
用 过 去 积 素 的 利 识 知识 。 这 种 对 智力 逐 级 考察 并 及 时 奖励 的 过 程 ， 坪 
我 们 产生 愉 居 感 的 来 源 ， 也 是 游戏 和 智能 密 不 可 分 的 联系 。 


ae 游戏 AI 的 历史 


早 在 人 工 智能 处 于 萌芽 期 ， 先 驱 们 就 产生 用 计算 机 解决 一 些 智力 
任务 的 想法 。 人 工 智 能 之 父 一 一 阿兰 :图 灵 很 早 就 从 理论 上 提出 用 
MiniMax 算 法 来 下 国际 象棋 的 思路 53] o 


第 一 款 成 功 下 棋 的 软件 诞生 于 1952 年 ， 记 录 在 道格拉斯 的 博士 论 
文中 ， 玩 的 是 最 简单 的 Tic-Tac-Toe 游 戏 ( 见 图 14.10 (a) ) 。 几 年 
后 ,约瑟夫 塞 - 缘 尔 开 发 出 下 西洋 跳棋 ( 见 图 14.10 (b) ) 的 软件 ， 是 
第 一 款 应 用 机 器 学 习 算 法 的 程序 ， 现 在 这 个 算法 被 人 们 称 为 强化 学 


习 。 在 早期 的 游戏 中 ，AI 都 集中 在 解决 经 典 棋 类 游戏 的 回 题 上 ， 人 和 人们 
相信 人 类 挑战 了 几 百 年 甚至 上 千年 的 游戏 ， 必 定 是 人 类 智能 的 精华 所 
在 。 然 后 ， 三 十 年 的 努力 ， 人 们 在 树 搜 索 技 术 上 取得 突破 。1994 年 ， 
乔纳森 .斯 卡 费 尔 的 西洋 跳棋 程序 Chinook 打 败 了 人 类 冠军 马里 恩 . 汀 斯 
雷 B4;，2007 年 ， 他 在 《科学 》 杂 志 宣 布 “Checkers is solved” (西洋 跳 
棋 已 被 攻克 ) DSI o 
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(a) Tic-Tac-Toe 游 戏 


(b) 西洋 跳棋 


(c) 西洋 双 陆 棋 
图 14.10 各 种 棋 类 游戏 


长 时 间 以 来 ， 国 际 象 棋 被 公认 为 AI 领域 的 实验 用 “有 果 晶 ”， 大 量 的 
AI 者 方法 被 测试 于 此 。 直 到 1997 年 ，IBM 的 深 监 击败 世界 级 国际 象棋 
大 师 加 里 ' 卡 斯 由 罗 夫 〈 见 图 14.11) ， 展 现 出 超人 般 的 国际 象棋 水 平 ， 
这 只 “ 果 蝇 ?终于 退休 了 59 。 当 时 深蓝 运行 在 一 个 超级 计算 机 上 ， 现 在 
一 台 普 通 的 笔记 本 就 能 运行 深蓝 程序 。 


时 062, d4 d5 3, Nc3 dxe4 


图 14.11 深蓝 击败 象棋 大 师 加 里 - 卡 斯 帕 罗 夫 


游戏 AI 的 男 一 个 里 程 碑 事件 发 生 在 西洋 双 陆 棋 上 ( 见 图 14.10 
(c) ) 。1992 年 ， 杰 拉 尔 德 . 特 索 罗 开发 的 名 叫 TD-Gammon 的 程序 ， 
运用 了 神经 网 络 和 时 间 差 分 学 习 方 法 ， 达 到 了 顶尖 人 类 玩家 的 水 准 
[57] 。 随 着 AI 技 术 的 发 展 ， 经 历 了 从 高 潮 到 低谷 、 从 低谷 到 高 潮 的 起 起 
伏 伏 ， 时 间 转 移 到 2010 年 前 后 ，DeepMind、OpenAI 等 一 批 AI 人 研究 公 
司 的 出 现 ， 将 游戏 AI 推 向 一 个 新 纪元 ， 下 面 我 们 开始 一 一 详 壕 。 


= 从 AlphaGo 到 AlphaGo Zero 


面 对 古 老 的 中 国 游 戏 一 一 围棋 ，AI 研 究 者 们 一 度 认 为 这 一 天 远 未 
到 来 。2016 年 1 月 ， 合 歌 DeepMind 的 一 篇 论文 《通过 深度 神经 网 络 与 
搜索 树 掌 握 围 棋 》 (Mastering the game of go with deep neural networks 
and tree search) 发 表 在 《自然 》 杂 志 上 ， 提 到 AI 算法 成 功 运用 有 监督 
学 习 、 强 化 学 习 、 深 度 学 习 与 蒙特 卡 洛 树 搜索 算法 解决 下 围棋 的 难题 
[58] 。2016 年 3 月 ， 谷 歌 围棋 程序 AlphaGo 与 世界 冠军 李 世 石 展开 5 局 对 
战 ， 最 终 以 4:1 获 胜 ( 见 图 14.12) 。2016 年 年 底 ， 一 个 名 为 Master 的 神 
秘 围 模 大师 在 网 络 围棋 对 战 平 台 上 ， 通 过 在 线 超 快 棋 的 方式 ， 以 60 胜 0 
仙人 的 战绩 震惊 天 下 ， 在 第 59 盘 和 第 60 盘 的 局 间 宣 布 自己 束 是 
AlphaGo。2017 年 5 月 ，AlphaGo 叉 与 被 认为 世界 第 一 的 中 国 天 才 棋 手 
柯 洁 举行 三 局 较量 ， 结 果 三 局 全 胜 。 


图 14.12 ”AlphaGo 击 败 围棋 冠军 李 世 石 


从 算法 上 讲 ，AlphaGo 的 成 功 之 处 在 于 完美 集成 了 深度 神经 网 
络 、 有 监督 学 习 技 术 、 强 化 学 习 技术 和 陀 符 卡 洛 树 搜索 算法 。 里 然 人 
们 很 早 束 竹 试 使 用 绽 符 卡 洛 树 搜索 算法 来 解决 棋 类 AI 问 题 ， 但 是 
AlphaGo 首 先 末 用 强化 学 习 加 深度 神经 网 络 来 指导 蒙特 卡 洛 树 搜索 算 
法 。 强 化 学 习 提供 整个 学 习 框 架 ， 设 计策 略 网 络 和 价值 网 络 来 引导 蒙 
符 卡 阁 树 搜 索 过 程 ， 深 度 神 经 网 络 提供 学 习 两 个 网 络 的 函数 近似 工 
具 ， 而 策略 网 络 的 初始 化 权重 则 通过 对 人 类 棋谱 的 有 监督 学 习 获 得 。 
与 传统 蒙特 卡 洛 树 搜索 算法 不 同 ，AlphaGo 提 出 “异步 策略 与 估 值 的 蒙 
特 卡 洛 树 搜 索 算 法 ”， 也 称 APV-MCTS“。 在 扩充 搜索 树 方面 ，APV- 
MCTS 根 据 有 监督 训练 的 策略 网 络 来 增加 新 的 边 ; ET PP 


面 ，APV-MCTS 结 合 简 单 的 rollout 结 果 与 当前 值 网 络 的 评估 结果 ， 得 
到 一 个 新 的 评估 值 。 训 练 AlphaGo 可 分 成 两 个 阶段 ， 第 一 阶段 ， 基 于 
有 监督 学 习 的 策略 网 络 参 数 ， 使 用 强化 学 习 中 的 策略 梯度 方法 ， 进 一 
CFE ZS; 第 二 阶段 ， 基 于 大 量 的 目 我 对 奔 槛 局 ， 使 用 蒙特 卡 
洛 稼 略 评估 方法 得 到 新 的 价值 网 络 。 需 要 指出 的 是 ， 为 了 训练 有 监督 
在 50 核 的 分 布 式 计算 平台 上 要 花 大 约 3 周 时 间 ， 如 图 
14.13PTAR ° 
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图 14.13 ”AlphaGo 的 训练 


WERA HREN RZ ER, AlphaGo m KÆ AlphaGo Zero 横 空 
出 世 ， 后 者 根本 不 需要 人 类 棋谱 做 预先 训练 ， 完 全 是 自己 和 上 自己 下 
[5393]。 算 法 上 ，AlphaGo Zero 只 凭借 一 个 神经 网 络 ， 进 行 千 万 盘 的 自我 
对 弈 。 初 始 时 ， 由 于 没有 人 类 知识 做 铺垫 ，AlphaGo Zero 不 知 围棋 为 
何 物 ; 36 小 时 后 ，AlphaGo Zero 达 到 2016 年 与 李 世 石 对 战 期 AlphaGo 的 
水 平 ; 72 小 时 后 ，AlphaGo Zero 以 100:0 的 战绩 绝对 碾 压 李 世 石 版 的 
AlphaGo; 40 天 后 ，AlphaGo Zero 超 越 所 有 版 本 的 AlphaGo， 如 图 14.14 
所 示 。 人 研究 者 们 评价 AlphaGo Zero 的 意义 ， 认 为 它 揭示 出 一 个 长 期 以 
来 被 人 们 忽视 的 真相 一 数据 也 许 并 非 必要 ， 有 游戏 规则 足够 。 这 人 恰 
和 人 们 这 几 年 的 观点 相左 ， 认 为 深度 学 习 技术 是 数据 驱动 型 的 人 工 稼 
能 技术 ， 算 法 的 有 效 性 离 不 开 海 量规 模 的 训练 数据 。 事 实 上 ， 深 层次 
探究 个 中 原因 ， 有 了 游戏 的 模拟 系统 ， 千 万 盘 对 穿 、 千 万 次 斌 错 不 也 
是 基于 千 万 个 样本 数据 吗 ， 只 是 有 效 数据 的 定义 不 一 定 指 人 类 的 知 


识 。 


40 天 -AlphaGo Zero 超越 了 所 有 之 


36 小 时 -AlphaGO Zero 达到 了 72 小 时 -AlphaGo Zero 
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图 14.14 AlphaGo Zero 超越 所 有 围棋 选手 的 进步 过 程 


纵 观 其 他 经 典 的 棋 类 游戏 ， 如 国际 和 象棋、 中国 象棋 等 ， 无 一 不 是 
基于 确定 性 规则 建立 的 游 戏 。 这 类 游 戏 不 仅 规 则 明晰 ， 而 且 博 弈 的 双 
方 均 持 有 对 称 的 信息 ， 即 所 谓 的 “完美 信息 ”。 游 戏 AI 面 对 的 问题 ， 通 
常 是 一 个 搜索 问题 ， 而 且 是 一 对 一 的 MiniMax 游 戏 。 原 理 上 ， 记 住 当 
前 局 面 并 向 下 进行 搜索 式 推 沉 ， 可 以 找到 较 好 的 策略 。 当 搜索 空间 不 
大 时 ， 可 以 把 各 种 分 支 情 况 都 遍历 到 ， 然 后 选 出 最 佳 方案 ; 当 搜 索 空 
间 太 大 时 ， 可 以 用 一 些 剪 枝 的 或 概率 的 办 法 ， 减 少 要 搜索 的 状态 数 。 
国际 象棋 和 中 国 象棋 的 棋子 较 少 ， 且 不 同 棋子 直子 方式 固定 ， 用 今天 
的 超级 计算 机 穷 举 不 是 问题 。 但 是 围棋 不 同 ， 棋 盘 是 19x19， 有 361 个 
沙子 点 ， 一 盘 围 棋 约 有 10 的 170 次 方 个 决策 点 ， 是 所 有 棋 类 游戏 中 最 多 
的 ， 需 要 的 计算 量 巨大 ， 所 以 穷 举 方式 是 不 可 能 的 ， 这 也 导致 围棋 成 
为 最 后 被 计算 机 攻克 的 棋 类 游戏 。 数 学 上 ， 中 国 象棋 和 国际 象棋 的 空 
间 复 杂 程 度 大 约 是 10 的 48 次 展 ， 而 围棋 是 10 的 172 次 需 ， 还 有 打动 的 手 
段 可 以 反复 提 子 ， 事 实 上 要 更 复杂 。 值 得 一 提 的 是 ， 可 观测 宇宙 的 质 
子 数量 为 10 的 80 次 震 。 

e 德州 扑克 中 的 “ 距 人 ”AI 

德州 扑克 在 欧美 十 分 盛行 ， 大 概 的 规则 是 每 人 发 两 张 暗 牌 ， 只 
自己 看 到 ， 然 后 按 3-1-1 的 节奏 发 5 张 明 牌 ， 七 张 牌 组 成 最 大 的 牌 型 ， 


按照 同花顺 > 四 条 > 戎 户 > 同 伦 > 顺 子 > 三 条 > 两 对 > 对 子 > 高 牌 的 顺序 比 大 
小 。 这 期 间 ， 玩 家 只 能 看 到 目 己 的 两 张 底牌 和 保 面 的 公共 牌 ， 因 此 得 
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2017 年 1 月 ， 在 美国 宾 儿 法 尼 亚 州 匹兹堡 的 河流 赌场 ， 一 个 名 为 
Libratus 的 AI 程序 ， 在 共计 12 万 手 的 一 对 一 无 限 注 德州 扑克 比赛 中 ， 轮 
流 击败 四 名 顶尖 人 类 高 手 ， 斩 获 20 万 美元 奖金 和 约 177 万 美元 的 筹码 

( 见 图 14.15) 。 它 的 设计 者 卡耐基 梅 隆 大 学 博士 诺 阿 :布朗 透露 ， 他 自 
己 只 是 一 个 德州 扑克 的 爱好 者 ， 并 不 十 分 精通 ， 平 时 只 与 朋友 打 打 五 
美元 一 盘 的 小 脾 ， 所 以 从 未 通过 目 己 或 其 他 人 类 的 经 验 教 Libratus 怎 么 
玩 牌 ， 仅 仅 给 了 它 德 扑 的 玩法 规则 ， 让 它 通过 “左右 互 捕 "来 目 己 摸索 
这 个 游戏 该 怎么 玩 ， 如 何 能 更 大 概率 地 获胜 。 也 许 正 因为 布朗 未 传授 
人 类 经 验 给 Libratus， 使 它 玩 德 扑 的 风格 如 此 锭 异 于 人 类 ， 让 人 捉摸 不 
透 ， 而 这 对 获胜 十 分 关键 ， 因 为 在 玩 德 扑 的 过 程 中 ， 下 注 要 具备 足够 
的 随机 性 ， 才 会 让 对 手 摸 不 清 谋 细 ， 同 时 也 是 成 功 诈 距 住 对 手 的 关 
键 。 与 Libratus 交 手 的 四 位 人 类 职业 玩家 证 实 了 Libratus 下 注 十 分 大 
胆 ， 不 拘 一 格 。 它 动不动 就 押 下 全 部 筹码 ， 多 次 诈 距 住人 类 对 手 ， 这 
让 人 类 玩家 在 20 天 内 只 有 4 天 是 启 钱 的 ， 其 他 日 子 都 输 了 。 


据 称 ，Libratus 目 我 学 习 能 力 非常 强 ， 人 类 头 一 天 发 现 它 的 弱点 ， 
第 二 天 它 就 不 会 再 犯 。 布 朗 所 用 的 方法 称 为 反 事 实 遗 憾 最 小 化 算法 
(Counterfactual Regret Minimization, CFR) ， 可 得 到 一 个 近似 纳什 均 
衡 的 解 ， 基 本 原理 是 : 人 驳 挑 选 一 个 行为 A 予 以 实施 ， 当 隐 状 态 揭 开 
时 ， 计 算 假设 选择 其 他 非 A 行 为 可 获得 的 奖励 ， 类 似 计算 机 会 成 本 ， 
并 将 非 A 行 为 中 的 最 佳 收益 与 事实 行为 A 的 收益 之 差 称 为 “遗憾 ?， 如 采 
遗憾 大 于 零 ， 意 味 着 当前 挑选 的 行为 非 最 优 ， 整 个 过 程 束 是 在 最 小 化 


这 个 遗憾 (60 。 


DeepStack 是 另 一 个 同样 达到 世界 级 水 准 的 德 扑 AI 程序 [60。 与 
Libratus 相 同 ，DeepStack 采 用 自我 对 战 和 递归 推理 的 方法 学 习 策略 ; 
不 同 的 是 ， 它 不 是 计算 一 个 显 式 的 策略 ， 而 是 类 似 AlphaGo， 采 用 树 
搜索 结合 近似 值 画 数 的 强化 学 习 方法 来 决定 每 轮 的 行为 ， 可 看 成 一 个 
带 不 完美 信息 的 启发 式 搜索 AlphaGo 。 
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图 14.15 ”德州 扑克 AI Libratus 的 决策 过 程 


牌 类 游戏 与 棋 类 游戏 不 同 。 国 际 象 棋 、 中 国 象 棋 和 围棋 等 都 是 “ 完 
美 信息 ”游戏 ， 也 就 是 说 ， 所 有 玩家 在 游戏 中 获得 的 信息 是 确定 的 、 公 
开 的 和 对 称 的 。AI 攻 元 这 些 游戏 的 难度 ， 主 要 取决 于 游戏 过 程 的 决策 
所 数量 ， 这 决定 了 需要 的 计算 量 。 然 而 ， 扑 殉 是 一 种 包含 很 多 隐藏 信 
尽 的 “不 完美 信息 ”游戏 。 玩 家 掌握 不 对 称 信息 ， 只 看 得 到 目 己 手 里 的 
牌 ， 却 不 知道 对 手 手 中 的 牌 ， 更 不 知道 对 手 如 何 猜测 目 己 的 手 牌 。 
此 ， 虽 然 一 局 德 扑 的 决策 总 数量 要 少 于 一 盘 围棋 ， 但 是 不 确定 性 的 加 
入 ， 使 得 每 个 决策 氮 上 ， 玩 家 都 要 全 盘 进 行 推理 ， 计 算 量 难以 想象 。 
在 非 对 称 信息 博 府 中， 对 同样 的 客观 状态 ， 由 于 每 个 玩家 看 到 的 信息 
不 同 ， 这 增加 了 玩家 状态 空间 的 数目 以 及 做 决策 的 难度 。 如 果 考 虚心 
理 层面 的 博 窒 ， 有 别 于 机 右 ， 人 类 可 以 “ 诈 哮 ”来 虚 张 声势 ， 这 被 人 类 
看 作 是 智商 和 情商 的 完美 结合 。 


非 对 称 博 弈 中 双方 的 猜测 是 彼此 的 ， 征 相互 影响 的 ， 故 而 没有 单 
一 的 最 优 打 法 ，AI 必 须 让 目 己 的 移动 随机 化 ， 这 样 在 它 晓 骗 对 方 时 对 
方才 无 法 确定 真 假 。 举 个 石头 筋 子 布 的 例 于 ， 如 果 别 人 一 直 用 石头 蔓 
刀 布 各 1/3 的 混合 策略 ， 那 目 己 整 会 发 现 好 像 忌 么 出 招收 益 部 是 0;， 于 
是 每 次 都 出 石头 ， 但 是 这 样 的 话 ， 对 手 就 可 以 利用 这 个 策略 的 弱点 提 
高 目 己 的 收益 。 所 以 好 的 算法 束 要 求 ， 基 于 别人 已 有 策略 得 到 的 新 筑 
略 要 尽 可 能 地 少 被 别人 利用 。 这 样 的 研究 有 很 实际 的 意义 ， 它 将 来 能 


够 应 用 在 金融 谈判 、 扣 卖 、 互 联网 安全 等 领域 ,需要 AI 在 “不 完美 信 
思 ?” 的 情景 中 做 出 决策 ， 这 或 许 正定 Libratus 擅 长 的 。 
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2013 年 ， 尚 未 被 谷歌 收购 的 DeepMind 发 表 了 一 篇 里 程 碑 式 的 论文 
《用 深度 强化 学 习 玩 Atari》 (Playing Atari with deep reinforcement 
learning) |5?! 。Atari 2600 是 20 世 纪 80 年 代 一 款 家 庭 视 频 游戏 机 ( 见 图 
14.16) ， 相 当 于 以 前 的 小 霸王 学 习 机 ， 输 出 信号 接 电视 机 ， 输 入 则 是 
一 个 控制 杆 。 人 研究 者 通常 在 它 的 模拟 器 Arcade Learning Environment 
(ALE) 上 做 实验 [@]。 这 篇 论文 试图 让 AI 仅 赁 屏幕 上 的 画面 信息 及 游 
MAN, AAT UAT A Atari 2600 上 的 游戏 。 该 文 充 分 吸收 了 近 些 年 深 
度 学 习 的 人 研究 成 果 一 一 深度 卷 积 神经 网 络 ， 结 合 强 化 学 习 的 已 有 框 
涤 ， 运 用 经 验 回 放 的 采样 思路 ， 设 计 出 深度 Q-learning 算法 ， 最 后 结果 
出 奇 地 好 ， 在 很 多 游戏 上 都 胜 过 人 类 高 手 。 传 说 正 是 因为 这 点 ， 让 合 
歌 看 上 了 DeepMind。2015 年 ， 谷 歌 DeepMind 在 《自然 ”杂志 上 发 表 
了 著名 的 文章 《通过 深度 强化 学 习 达 到 人 类 水 平 的 控制 》 (Human- 
level control through deep reinforcement learning) ， 提 出 了 著名 的 深度 
Q 网 络 (DQN) ， 仅 训练 一 个 端 到 端的 DQN， 便 可 在 49 个 不 同 游 戏 场 
景 下 全 面 超越 人 类 高 手 [69 o 
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图 14.16 ”游戏 机 Atari 上 的 游戏 


此 外 ， 在 2016 年 4 月 ， 男 一 家 AI 研 究 公 司 一 一 OpenAI 对 外 发 布 了 
一 款 用 于 人 研发 和 评比 强化 学 习 算 法 的 工具 包 Gym。Gym 包 括 了 各 种 模 
拟 环境 的 游戏 ， 如 最 经 典 的 倒立 摆 。 该 平台 提供 一 个 通用 的 交互 界 
面 ， 使 开发 者 可 以 编写 适用 不 同 环境 的 通用 AI 算法 。 开 发 者 通过 把 上 自 
己 的 AI 算法 拿 出 来 训练 和 展示 ， 获 得 专家 和 其 他 爱好 者 的 点 评 ， 大 家 
共同 探讨 和 研究 。 强 化 学 习 有 各 种 各 样 的 开源 环境 集成 ， 与 它们 相 
cs Gym 更 为 完善 ， 拥 有 更 多 种 类 旦 不 同 难 度 级 别 的 任务 ， 如 图 14.17 
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。 倒立 摆 (Cart Pole) : 这 是 一 个 经 典 控制 问题 。 一 个 杆 一 个 小 
车 ， 杆 的 一 端 连接 到 小 车 ， 连 接 处 目 由 ， 杆 可 以 摆 来 摆 去 。 小 车 
前 后 两 个 方向 移动 ， 移 动 取 决 于 施加 的 前 后 作用 力 ， 大 小 为 1。 目 
标 是 控制 力 的 方向 ， 进 而 控制 小 车 ， 让 杆 保 持 站 立 。 注 意 小 车 的 
移动 范围 是 有 限制 的 。 

。 月球 登陆 者 (Lunar Lander) : 这 个 游戏 构建 在 Box2D 模 拟 器 上 © 
Box2D 是 一 款 2D 游 戏 世 界 的 物理 引擎 ， 可 处 理 二 维 物体 的 伴 撞 、 
摩 探 等 力学 问题 。 本 游戏 的 场景 是 让 月 球 车 顺利 平稳 地 着 陆 在 地 


面 上 的 指定 区 域 ， 接 触 地 面 一 瞬间 的 速度 最 好 为 0， 并 且 消 耗 的 燃 
料 越 少 越 好 。 

双 足 行走 者 (Bipedal Walker) : 同样 基于 Box2D 模 拟 器 ， 这 个 游 
戏 中 玩家 可 以 控制 双 足 行走 者 的 步 进 姿态 。 具 体 地 说 ， 是 控制 腿 
部 膝 关 节 处 的 马达 扭力 ， 尽 量 让 行走 者 前 进 得 更 远 ， 同 时 避免 控 
倒 。 本 环境 提供 的 路 面包 括 台 阶 、 树 桩 和 隐 坑 ， 同 时 给 行走 者 提 
供 10 个 激光 测 距 值 。 另 外 ， 环 境 的 状态 信息 包括 水 平 速 度 、 垂 直 
速度 、 整 体 角 速度 和 关 届 处 角速度 等 。 

aK HRA (Doom: Defend Line) : 这 是 一 款 仿 3D 的 第 一 人 称 射 
击 游戏 。 游 戏 场景 是 在 一 个 密闭 的 空间 里 ， 尽 可 能 多 地 杀 死 怪物 
和 保全 目 己 ， 杀 死 的 怪物 越 多 ， 奖 励 束 越 多 。AI 玩 家 所 能 观察 
的 ， 同 人 类 玩家 一 样 ， 只 是 一 个 第 一 人 称 的 视野 。 


日 球 登 陆 者 


(b) 


(d) 毁灭 战士 
图 14.17 Gym 中 的 各 种 小 游戏 


OpenAI 显 然 不 满足 于 此 。2016 年 年 底 ， 继 4 月 发 布 Gym 之 后 ， 


OpenAI 又 推出 一 个 新 平台 Universe (Ji 114.18) 。Universe 的 目 
标 是 评估 和 训练 通用 AI。 同 Gym 上 的 定制 游戏 不 同 ，Universe 瞄 准 的 
环境 是 世界 范围 的 各 种 游戏 、 网 页 及 其 他 应 用 ， 与 人 类 一 样 面 对 相 同 
复杂 和 实时 程度 的 环境 ， 至 少 在 信息 世界 这 个 层面 上 ， 物 理 世 界 还 有 
每 传 感 右 和 硬件 的 进步 。 具 体 地 讲 ， 游 戏 程序 被 打包 到 一 个 Docker 容 
八里 ， 提 供给 外 部 的 接口 ， 人 与 机 器 一 样 的 ， 谁 都 不 能 访问 游戏 程序 
的 内 部 ， 只 能 接收 屏幕 上 的 画面 ， 和 发 送 键盘 和 妆 标 指令 。 


environment interface agent 


图 14.18 OpenAI 开发 的 通用 AI 平台 Universe 示 意图 


Universe 的 目标 是 让 设计 者 开发 单一 的 智能 体 ， 去 完成 Universe 中 
的 各 类 游戏 和 任务 。 当 一 个 陌生 游 戏 和 任务 出 现时 ， 智 能 体 可 以 借助 
过 往 经 验 ， 快 速 地 适应 并 执行 新 的 游戏 和 任务 。 我 们 都 知道 ， 虽 然 
AlphaGo 击败 了 人 类 世界 围棋 冠军 ， 但 是 它 仍 然 属于 狭义 AI， 即 可 以 
在 特定 领域 实现 超人 的 表现 ， 但 缺乏 领域 外 执行 任务 的 能 力 ， 就 像 
AlphaGo 不 能 陪 你 一 起 玩 其 他 游戏 。 为 了 实现 具有 人 解决 一 般 问题 能 
的 系统 ， 就 要 让 AI 拥 有 人 类 和 常识， 这 样 才 能 够 快速 解决 新 的 任务 。 
此 ， 智 能 体 需 要 携带 经 验 到 新 任务 中 ， 而 不 能 采用 传统 的 训练 步骤 ， 
初始 化 为 全 随机 数 ， 然 后 不 断 试 销 ， 重 新 学 习 参 数 。 这 或 许 是 迈 癌 通 
用 AI 的 重要 一 步 ， 所 以 我 们 必须 让 智能 体 去 经 历 一 系列 不 同 的 任务 ， 
以 便 它 能 发 展 出 天 于 世界 的 认 知 以 及 解决 问题 的 通用 策略 ， 并 在 新 任 
务 中 得 到 使 用 。 


最 典型 的 任务 就 是 基于 浏览 器 窗口 的 各 项 任务 。 互 联网 是 一 个 缠 
藏 丰富 信息 的 大 宝藏 。Universe 提 供 了 一 个 浏览 器 环境 ， 要 求 AI 能 浏 
哆 网 页 并 在 网 页 间 导 航 ， 像 人 类 一 样 使 用 显示 絮 、 键 盘 和 刀 标 。 当 前 
的 主要 任务 是 学 习 与 各 类 网 页 元 素 区 互 ， 如 点 击 按钮 、 下 拉 沫 单 等 。 
将 来 ，AI 可 以 完成 更 复杂 的 任务 ， 如 搜索 、 购 物 、 预 定 航班 等 。 


ae 星际 争霸 : 走向 通用 AI 


面 对 策 略 类 电脑 游戏 ， 挑 战 难点 不 仅仅 古 像素 点 阵 组 成 的 画面 ， 
更 在 于 高 级 认 知 水 平 的 表现 ， 考 察 AI 能 否 综合 对 多 种 单位 、 多 种 要 素 
等 的 分 析 ， 设 计 复 洒 的 计划 ， 并 随时 根据 情况 灵活 调整 计划 ， 尤 其 古 
即时 类 筑 略 游戏 ， 被 视 为 AI 最 难 玩 的 游戏 。 星 际 争霸 (StarCraft) 就 
苹 一 球 这 样 的 游戏 ， 于 1998 年 由 暴雪 娱乐 公司 发 行 ( 见 图 14.19) ° € 


的 资料 片 母 利之 战 (Brood War) 提供 了 专 给 AI 程序 使 用 的 API， 激 发 
起 很 多 AI 研究 者 的 研究 热情 [65] 。 


在 平台 方面 ，DeepMind 在 成 功 使 用 深度 学 习 攻克 Atari 游 戏 后 ， 宣 
布 和 了 暴雪 公司 合作 ， 将 StarCraft II 作 为 新 一 代 AI 测 斌 环境， 发 布 
SC2LE 平 台 ， 开 放 给 AI 人 研究 者 测试 他 们 的 算法 。SC2LE 平 台 包 括 骏 雪 
公司 开发 的 Machine Learning API、 匿 名 化 后 的 比赛 录像 数据 集 、 
DeepMind 开 发 的 PySC2 工 具 箱 和 一 系列 简单 的 RL 迷你 游戏 l66] o 
Facebook 也 早 在 2016 年 就 宣布 开源 TorchCraft， 目 的 是 让 每 个 人 都 能 编 
写 星 际 争霸 AI 程 序 。TorchCraft 是 一 个 能 让 深度 学 习 在 即时 战略 类 游戏 
上 开展 研究 的 库 ， 使 用 的 计算 框架 是 Torcht67] o 
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R1419 ”暴雪 公司 出 品 的 游戏 “星际 争霸 ” 


在 算法 方面 ，Facebook 在 2016 年 提出 微 操作 任务 ， 来 定义 战斗 中 
军事 单位 的 短 时 、 低 等 级 控制 问题 ， 称 这 些 场景 为 微 操作 场景 6851。 为 
了 解决 微 操作 场景 下 的 控制 问题 ， 他 们 运用 深度 神经 网 络 的 控制 项 和 
启发 式 强化 学 习 算法 ， 在 策略 空间 结合 使 用 直接 探索 和 梯度 反 向 传播 
两 种 方法 来 寻找 最 佳 策 略 。 阿 里 巴巴 的 一 批 人 也 在 2017 年 参与 到 这 场 
AI 挑战 赛 中 ， 提 出 一 个 多 智能 体 协同 学 习 的 框 腰 ， 通 过 学 习 一 个 多 鹤 
能 体 双 癌 协 同 网 络 ， 来 维护 一 个 高 效 的 通信 协议 ， 实 验 显 示 AI 可 以 学 
习 并 掌握 星际 争霸 中 的 各 类 战斗 任务 [9] 。 

一 般 说 来 ， 玩 星际 争霸 有 三 个 不 同 层 面 的 决策 : 最 高 层面 是 战略 


水 平 的 决策 ， 要 求 的 信息 观察 强度 不 高 ; 最 低层 面 是 微 操 作 水 乎 的 决 
策 ， 玩 家 需要 考虑 每 个 操控 单位 的 类 型 、 位 置 及 其 他 动态 属性 ， 大 量 


的 信息 都 要 通过 观察 获取 ;中 间 层 面 是 战术 水 平 的 决策 ， 如 兵团 的 位 
置 及 推进 方 同 ， 如 图 14.20 所 示 。 可见 ， 即 时 战略 类 游戏 对 AI 来 讲 有 着 
巨大 的 挑战 ， 代 表 闭 和希 能 水 平 测试 的 最 高 态 。 
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图 14.20 ”星际 争霸 的 三 个 决策 层次 
m 为 什么 AI 需要 游戏 ? 


游戏 并 非 只 有 对 弈 。 自 电子 游戏 诞生 起 ， 有 了 非 玩 家 角色 (Non- 
Player Character) 的 概念 ， 就 有 了 游戏 AI 的 强 需 求 。 引 入 非 玩家 角 
色 ， 或 对 抗 ， 或 陪伴 ， 或 把 级 ， 提 升 了 游戏 的 难度 ， 增 强 了 游戏 的 沉 
浸 感 。 与 不 同 难 度 等 级 AI 的 对 抗 ， 也 让 玩家 能 够 不 断 燃 起 挑战 的 欲 
望 ， 增 强 游 戏 的 和 儿 性 。 另 一 方面 ， 游 戏 行业 也 是 AI 发 展 最 理想 的 试 金 
看 [ « 


游戏 提供 了 定义 和 构建 复杂 AI 问题 的 平台 。 传 统 学 术 界 的 AI 问题 
都 十 单一 、 纯 粹 的 ， 每 个 问题 面 同 一 个 特定 任务 ， 比 如 图 片 分 类 、 目 
标 检 测 、 商 品 推荐 等 。 走 向 通用 AI， 述 早 要 控 脱 单一 任务 设 定 ， 去 解 
决 多 和 输入、 多 场景 和 多 任务 下 的 复杂 问题 。 从 这 点 看 ， 游 戏 是 传统 学 
术 问 题 无 法 妮 美 的 ， 即 使 是 规则 人 简单 的 棋 类 游戏 ， 状 态 空 间 规模 也 厦 
巨大 的 ， 包 含 各 种 制胜 策略 。 从 计算 复杂 性 角度 看 ， 许 多 游戏 都 是 
NP-hard。 在 由 这 些 难 度 铺设 的 仆 山 道上 ， 人 研究 者 们 相继 攻克 了 西洋 


棋 、 西 详 双 陆 棋 、 国 际 象棋 、 中 国 象棋 和 围棋 ， 以 及 简单 电子 游戏 
Atari 系 列 和 超级 马里 奥 等 。 现 在 ， 人 们 正 把 目光 放 在 更 大 型 、 更 具 挑 
战 性 的 星际 争霸 。 


游戏 提供 了 丰富 的 人 机 交互 形式 。 游 戏 中 人 机 交互 是 指 人 的 各 种 
操作 行为 以 及 机 妖 呈 现 给 人 的 各 种 信息 ， 具 有 快 币 奏 多 模 态 的 特征 。 
一 方面 ， 游 戏 要 么 是 回合 制 的 ， 人 机 交互 的 频率 一 般 都 是 秒 级 ， 有 的 
稍 长 ， 比 如 围棋 、 大 富 例 等 ， 要 么 是 实时 的 ， 频 率 更 短 ， 比 如 极品 飞 
车 、 星 际 争霸 等 ， 男 一 方面 ， 人 们 通过 键盘 、 鼠 标 和 触摸 板 控 制 游戏 
中 的 角色 ， 但 不 限于 此 ， 在 一 些 新 出 的 游戏 中 ， 人 们 还 可 通过 移动 号 
体 、 改 变 吴 体 姿 态 和 语音 控制 的 方式 参与 游戏 。 如 果 将 交互 信息 的 形 
态 考 虑 进来 ， 有 有 动作、 文本、 图 片 、 语 音 等 ， 如 果 将 交互 信息 在 游戏 
中 的 作用 考虑 进来 ， 可 以 是 以 第 一 人 称 方式 直接 控制 角色 ， 如 各 类 
RPG 游 戏 ， 可 以 是 以 角色 切换 的 方式 控制 一 个 群体 ， 如 实况 足球 ， 还 
可 以 从 上 和 营 视 角 经 营 一 个 部 落 、 一 个 公司 或 一 个 国家 ， 如 文明 。 复 杂 
的 人 机 交互 方式 ， 形 成 了 一 个 认 知 、 行 为 和 情感 上 的 模式 闭环 Fl 
发 (Elicit) 、 侦 测 (Detect) 和 响应 (Respond) ， 将 玩家 置身 于 一 个 
连续 的 交互 模式 下 ， 创 造 出 与 真实 世界 相同 的 玩家 体验 。 想 象 一 下 ， 
AI 算法 做 的 不 再 是 拟 合 数据 间 的 相关 性 ， 而 是 去 学 习 一 种 认 知 、 行 为 
和 情感 上 的 人 类 体验 。 


游戏 市 场 的 繁 采 提供 了 海量 的 游戏 内 容 和 用 户 数据 。 当 前 大 部 分 
AI 算 法 都 古 数据 驱动 的 ， 以 深度 学 习 为 例 ， 欲 得 到 好 的 实验 戏 末 ， 需 
要 的 训练 集 痢 在 千 万 级 规模 以 上 。 在 软件 应 用 领域 ， 游 戏 古 内 容 密集 
型 的 。 当 前 游戏 市 场 ， 每 年 都 会 产生 很 多 新 游戏 ， 游 戏 种 类 五 花 八 
[Jo AU, 无论 从 内 容 、 种 类 还 是 数量 上 ， 数 据 都 呈 爆 炸 式 增长 。 此 
外 ， 随 着 各 类 游戏 社区 的 壮大 ， 玩 家 提出 了 更 高 的 要 求 ， 期 待 获得 更 
好 的 玩家 体验 ， 游 戏 行业 被 推 癌 新 的 纪元 。 除 了 游戏 内 容 数 据 ， 随 着 
玩家 群体 延伸 到 各 年 龄 层 、 各 类 职业 人 和 群 ， 用 户 行为 数据 也 爆炸 式 增 
长 ， 游 戏 大 数据 时 代 已 然 来 临 。 


游戏 世界 癌 AI 全 领域 发 出 了 挑战 。 很 多 电子 游戏 都 有 一 个 虚拟 的 
时 空 世界 ， 各 种 实时 的 多 模 态 的 时 空 信号 ， 在 人 与 机 器 间 频 繁 传送 ， 
如 何 融 合 这 些 信 号 做 出 更 好 的 预测 ， 有 是 信号 处 理科 学 的 一 个 难题 。 棋 
类 游戏 不 涉及 虚拟 世界 ， 规 则 人 稍 单 清晰 ， 没 有 各 类 复杂 信和 号， 但 解决 
这 类 问题 也 不 是 一 件 简单 的 事情 ， 因 为 状态 空间 庞大 ， 所 以 要 设计 高 


效 的 搜索 方法 ， 如 国际 象棋 、 西 洋 棋 依靠 MiniMax 树 搜索 ， 围 棋 用 到 
蒙特 卡 洛 树 搜索 。 此 外 ， 解 决 围棋 问题 更 少不了 深度 学 习 和 强化 学 习 
方法 。 早 年 的 电视 游戏 和 街机 游戏 ， 都 是 通过 二 维 画 面 和 控制 杆 的 方 
式 实 现 人 机 交互 ， 如 果 让 AI 像 人 一 样 在 像素 级 别 上 操作 控制 杆 玩 游 
戏 ， 束 用 到 深度 学 习 中 最 火 的 卷 积 神经 网 络 ， 并 与 强化 学 习 结 合 为 深 
度 强化 学 习 方法 。Jeopardy! 是 美国 很 流行 的 一 个 知识 问答 类 真人 
秀 ，AI 要 解决 知识 问答 ， 既 要 用 到 目 然 语 言 处 理 技 术 ， 也 要 具备 一 定 
的 通 识 知 识 ， 掌 握 知 识 表 征 和 推理 的 能 力 。 另 外 ， 规 划 、 导 航 和 路 径 
选择 ， 也 是 游戏 中 常见 的 AI 问题 。 更 大 型 的 游戏 如 星际 和 争霸， 场景 更 
复杂 ， 既 是 实时 的 又 是 策略 的 ， 集 成 了 各 类 AI 问题 。 


如 果 上 述 几 点 理论 仍 无 法 让 你 信服 ， 那 么 当前 DeepMind 和 OpenAIi 
等 公司 及 一 些 大 学 研究 机 构 的 强力 推动 ， 人 研究 者 们 产生 的 各 种 天 马 行 
空 的 想法 ， 足 以 让 你 感到 一 种 震撼 ， 看 清 游 戏 对 AI 的 巨大 推动 。 事 实 
上 ， 当 下 越 来 越 多 的 AI 研 究 者 ， 开 始 将 游戏 视 作 构 建新 型 通用 AI 的 超 
级 试验 场 。 为 什么 呢 ? 


。 无 进化 速度 的 限制 


与 经 历 上 亿 年 漫长 进化 的 人 类 相 比 ， 游 戏 提供 的 虚拟 世界 没有 时 
间 流 速 的 限制 ， 计 算 流 代 伦 了 现实 世界 的 时 间 流 ， 处 理 器 计算 频率 越 
快 ， 计 算 并 行 度 越 高 ， 沿 时 间 轴 演化 的 速度 越 快 。 一 天 的 时 间 ， 已 经 
完成 百 万 次 的 迭代 。 


。 无 限 次 场景 和 无 限 次 重生 


游戏 世界 可 以 提供 无 限 次 重复 的 场景 ， 智 能 体 拥有 无 限 次 重生 的 
机 会 ， 使 得 进化 的 试 错 代价 大 大 降低 。 这 让 笔者 联想 到 一 部 关于 人 工 
智能 的 美剧 《西部 世界 》， 里 面 的 机 器 人 经 历 一 次 次 死亡 与 重生 ， 终 
TARANEE, MERKRA A ERIH ° 


。 独立 的 世界 


游戏 世界 与 现实 世界 独立 ， 既 可 以 模拟 现实 世界 的 物理 规则 ， 也 
可 以 打破 物理 规则 ， 看 害 能 体 的 应 对 策略 。 前 者 对 现实 世界 高 度 仿 
真 ， 有 助 于 在 开展 硬件 实验 前 ， 如 无 人 车 、 机 器 人 ， 先 期 探索 适用 的 
AI 模型 和 算法 ， 大 大 降低 耗费 在 硬件 上 的 成 本 。 后 者 呢 ? 在 我 们 尚未 
抵达 或 尚未 了 解 的 极端 物理 世界 、 网 络 世界 或 其 他 世界 ， 进 行 假设 性 
试验 ， 先 假设 一 些 坟 知 的 规则 ， 再 看 等 能 体 的 进化 轨迹 ， 为 人 类 的 未 
] 算 。 


当然 ， 游 戏 也 需要 AI， 升 级 的 AI 会 大 大 增加 游戏 的 玩家 体验 。 以 
前 游戏 中 的 AI 大 都 是 写 死 的 ， 次 深 玩 家 很 容易 发 现 其 中 的 调 洞 。 刚 开 
始 时 ， 玩 家 找到 这 些 漏洞 并 借以 阅 天 升级 ， 这 带 来 很 大 乐趣 ; 慢 慢 
地 ， 玩 家 厌倦 了 一 成 不 变 的 难度 和 重复 出 现 的 漏洞 。 如 果 AI 是 伴随 玩 
家 逐步 进化 的 ， 这 就 有 意思 了 。 还 有 一 点 ， 传 统 游戏 AI 属 于 游戏 系统 
目 身 ， 获 取 的 是 程序 内 部 数据 ， 和 玩家 比 有 不 对 称 优势 。 现 在 的 AI 要 
在 玩家 视角 下 ， 采 用 屏幕 画面 作为 AI 系统 的 输入 ， 像 一 个 人 类 玩家 来 
玩 游戏 。 知 能 体 与 人 类 玩家 ， 不 仅 存在 对 抗 ， 还 存在 协作 。 我 们 甚至 
可 以 建立 一 个 协作 平台 ， 用 目 然 语言 的 方式 ， 辣 AI 传 达 指 令 ， 或 接收 
来 目 AI 的 报告 。 总 之 ， 在 游戏 这 个 超级 AI 试验 场 上 上， 一切 噶 有 可 能 。 


03 AI 在 目 动 驾 驶 中 的 应 用 


“自动 要 驶 ”上 和 目 20 世 纪 初 被 雄心 勃勃 的 汽车 工业 巨头 提出 以 来 ， 惑 
一 直 是 人 们 梦 霖 以 求 的 出 行 技 术 。 从 2005 年 DARPA 挑 战 赛 以 来 ， 基 于 
车 辆 智能 化 的 目 动 要 驶 ， 进 入 快速 发 展期 。 从 互联 网 巨头 到 传统 汽车 
企业 纷纷 投入 巨 资 ， 试 图 引领 这 场 出 行 技 术 的 革命 。 而 这 场 革 命 的 核 
心 便 是 人 工 智能 。 本 将 概述 自动 区 驶 这 一 方兴未艾 的 应 用 领域 ， 并 
介绍 人 工 智 能 在 其 中 发 挥 的 作用 。 


a 为 什么 要 做 无 人 蜀 驶 ? 


安全 : 根据 统计 ， 仅 在 美国 平均 每 天 就 有 103 人 和 死 于 交通 事故 。 超 
过 94% 的 健 撞 事故 都 是 由 于 芍 驶 员 的 失误 而 造成 的 。 从 理论 上 说 ， 一 
个 完美 的 目 动 要 驶 方案 ， 每 年 可 以 挽救 120 万 人 的 生命 。 当 然 ， 目 前 目 
动 释 驶 还 远 远 没有 达到 完美 。 但 是 随 着 算法 和 传 感 带 技术 的 进步 ， 人 
们 相信 在 不 久 的 将 来 ， 目 动 营 驶 将 超过 人 类 司机 的 蕴 驶 安全 率 。 


方便 : 上 自动 区 驶 可 以 将 芍 驶 员 从 方向 盘 后 面 解放 出 来 ， 在 乘 车 时 
进行 工作 和 娱乐 。 美 国有 近 1.4 亿 上 班 族 ， 除 去 市 假日 平均 每 天 花 近 一 
小 时 在 上 下 班 的 路 上 。 如 采 把 所 有 上 班 族 一 年 中 的 这 些 时 间 加 起 来 ， 
将 有 三 百 多 万 年 ， 足 以 完成 300 部 维基 百科 全 书 ， 或 者 26 座 埃及 金字 
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高 效 共 享 : Uber、Lyft 和 滴 滴 等 共享 出 行 的 巨头 ， 都 在 积极 研究 
自动 芍 驶 ， 因 为 共享 出 行 最 大 的 成 本 来 自 于 司机 的 时 间 。 如 果 能 够 实 
现 自 动 芍 驶 ， 那 么 人 们 可 以 不 再 买 车 和 养车 ， 完 全 依赖 于 共享 出 行 ， 
这 将 为 每 个 美国 家 庭 丰 约 5600 美 元 ， 约 合 他 们 平均 年 收入 的 10%。 


WTS: 如 果 说 前 面 这些 优 点 还 有 赖 于 自动 区 驶 的 大 范围 普及 
的 话 ， 那 么 减少 拥 墙 这 个 优点 ， 束 可 以 说 是 立竿见影 了 。 根 据 伊利 话 
伊 大 学 的 沃克 教授 的 一 项 研究 ， 在 一 个 人 工 轨 驶 的 车 队 中 ， 只 要 加 入 
- 辆 目 动 营 驶 汽车 ， 蝶 可 以 将 车 队 行驶 车 速 的 标准 痉 减 少 50%， 使 得 
行驶 更 加 稳定 和 省 油 。 如 有 果 大 家 在 路 上 看 到 车 顶 安 狠 独 雷达 的 目 动 芍 
驶 汽车 ， 请 感谢 它 ， 因 为 它 正在 帮 你 减少 你 面前 的 拥堵 。 


为 了 更 加 直观 地 衡量 以 上 这 些 好 处 ， 我 们 不 妨 把 这 些 益处 能 给 美 
国 出 行 市 场 囊 来 的 价值 做 一 个 预 舍 ， 总 共 太 约 的 成 本 约 合 每 年 5.3 万 亿 
美元 ， 为 美国 GDP 的 29%， 如 图 14.21 所 示 。 


A financial perspective on personal mobility (US Market) 


e Safety: 
e “Cost of a statistical life”: $9.1M 
e 2014 NHTSA report: 
- Economic cost of road accidents: ~ $277B/year. 
- Societal harm of road accidents: ~ $594B/year 


* Cost of congestion: 

Texas Transportation Institute, 2012: ~ $100B/year 
e Health costs of congestion: 

+ Harvard School of Public Health, 2010: ~ $50B/year 
e Increased productivity/leisure: 

+ Estimate $1.2T/year 
e Car sharing: 


Safety 
Sharing (Economic Cost) 


(Societal Harm) 


7 Congestion 
Health 

+ Assuming a “sharing factor” of 4, estimate $1.8T/year San 

of benefits to individuals. 


¢ Other studies [Burns et al., '13, Fagnant, Kockelman 
'14] suggest higher sharing factors, up to ~10. 


Productivity 


图 14.21 个 人 出 行 的 财政 角度 分 析 (美国 
@ BS NEN 
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统 。 它 的 广义 的 定义 为 :， 自动 区 驶 是 无 顷 人 工 的 持续 干预 下 ， 用 于 自 
动 控制 交通 工具 行驶 轨迹 的 系统 。 按 照 自动 化 程度 和 敬 驶 员 的 参与 
度 ， 国 际 汽车 工程 师 协 会 将 自动 芍 驶 分 为 5 级 ， 如 表 14.1 所 示 。 以 现在 
已 经 发 布 的 量 产 车 为 例 ， 奥 迪 A8 人 处 于 L3， 特 斯 拉 处 于 L2.5， 沃 尔 沃 、 
尼桑 、 宝 马 、 奔 驰 的 高 端 新 款 车 都 处 于 L2。 如 果 一 个 车 辆 能 同时 做 到 
自 适应 巡航 和 车 道 保 持 辅助 ， 那 这 款 车 就 跨 进 了 L2 的 门槛 。2018 版 的 
凯迪 拉克 CT6 的 半自动 芍 驶 系统 “Super Cruise” 就 是 典型 的 L2 级 别 。 


表 14.1 国际 汽车 工程 师 协 会 将 自动 芍 驶 分 为 5 级 
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@ 目 动 驾驶 技术 路 线 的 演进 


从 目 动 区 驶 这 个 概念 所 出 之 日 起 ， 束 有 两 种 截然 不 同 的 技术 路 线 
( 见 图 14.22) 。 一 是 基于 路 面 上 的 基础 设施 ， 帮 助 车 辆 定位 ， 导航 和 
决策 ， 男 一 个 是 在 不 改变 现 有 路 面 的 情况 下 ， 车 辆 通过 目 市 的 传 感 右 
和 智能 计算 来 独立 完成 芍 驶 。 
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美国 无 线 电 公司 与 通用 汽车 的 国家 种 动 化 商 速 
需要 专门 的 电子 化 高 本 公路 DSR ZR GEIR HL AP. 
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第 一 条 技术 路 径 最 早 的 里 程 碑 是 通用 汽车 公司 在 1939 年 纽约 举行 
的 世界 博览 会 上 ， 展 示 的 “未 来 世界 ” (Futurama) ， 如 图 14.23 所 示 。 
随 着 美国 在 20 世 纪 五 六 十 年 代 铺 设 高 速 公 路 网 络 的 热 漳 ， 美 国 无 线 电 
公司 与 通用 汽车 合作 研发 了 电子 化 高 速 公 路 的 原型 ， 在 一 条 改造 过 的 
高 速 公路 上 ， 利 用 电磁 线圈 引导 两 辆 通用 雪 弗 菜 汽车 在 车 道内 行驶 ， 
并 保持 与 前 后 车 的 距离 ， 如 图 14.24 所 示 。 然而 电子 化 高 速 公 路 受制 于 
高 昂 的 基础 设施 费用 ， 和 美国 各 州 之 间 的 法 规 标准 的 不 统一 ， 至 今 仍 
在 政府 支持 的 车 联网 (V2X) 研究 项 目 之 中 。 


相 比 之 下 ， 自 动 芍 驶 的 第 二 条 技术 路 人 径 : 由 自动 机 器 人 人 研究 分 支 
而 来 的 自动 化 车 辆 ， 在 过 去 10 年 获得 了 长 足 的 发 展 。 给 这 一 方 同 带 来 
突破 性 进展 的 是 2001 年 美国 国会 通过 的 一 项 财政 预算 案 : 它 资助 美国 
军 方 的 研究 机 构 DARPA 以 实现 2015 年 前 有 三 分 之 一 的 军用 车 辆 使 用 自 
Bs AH ËR e DARPAZE2001~20074£ W], #5 T = A 22 ep 
战 赛 。 在 2005 年 的 挑战 赛 上 ，5 辆 无 人 轰 驶 汽车 使 用 人 工 智 能 系统 ， 成 
功 完 成 了 约 212 千 米 的 越野 赛 道 。 其 中 获得 冠军 的 斯 坦 福 大 学 的 “ 史 丹 
利 ” 车 队 〈 见 图 14.25) ， 握 弃 基于 人 工 规则 的 方法 ， 采 用 数据 驱动 的 
机 器 学 习 技 术 ， 来 训练 车 辆 识别 障碍 物 和 做 出 反应 。2007 年 DARPA 赛 
中 CMU 车 队 的 负责 人 克 里 斯 : 厄 姆 森 (Chris Urmson) ， 后 来 成 为 谷歌 
无 人 驾驶 项 目的 技术 负责 人 。 到 2014 年 ， 他 领导 开发 的 谷歌 无 人 驾驶 
汽车 的 行驶 里 程 达到 了 112 万 千 米 。 厄 姆 森 感 慨 到 : “两 年 前 ， 我 们 绝 
对 应 付 不 来 城市 街道 的 上 千 种 复杂 路 况 ， 而 现在 自动 芍 驶 却 可 以 处 理 
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图 14.25 2005 年 DARPA 挑 战 赛 的 冠军 “史丹利 ”( 左 一 ) 
a 自动 芍 驶 与 人 工 智 能 


目 动 区 驶 的 文 撑 技 术 可 以 分 为 以 下 3 层 。 
上 层 控 制 ， 路 线 规划 ， 交 通 分 析 ， 交 通 安排 。 
中 层 控制 : 物体 识别 ， 路 障 监测 ， 遵 守 交 规 。 


底层 控制 : 巡航 控制 ， 防 抱 死 ， 电 子 系统 控制 牵引 力 ， 燃 油 喷射 
系统 ， 引擎 调谐 


其 中 每 一 层 都 可 以 用 到 人 工 智能 技术 。 风 14.26 将 人 工 智能 的 算法 
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路 障 监测 展 层 控制 安排 

引擎 调谐 电子 系统 控制 牵引 力 

汽车 领域 的 应 用 燃油 喷射 系统 


14.26 ”人 工 智能 算法 在 自动 这 驶 中 的 应 用 场景 


以 下 简要 介绍 中 层 欣 制 中 ， 路 障 监测 用 到 两 个 重要 的 工具 “占据 要 
格 " 和 “不 确定 性 锥 ”。 


占据 概 格 是 一 个 存储 了 汽车 周围 实体 对 象 信息 的 数字 存储 库 。 占 
据 栅 格 中 的 实体 ， 一 坚 征 源 于 已 经 存储 的 局 清 地 图 的 静止 物体 ， 刀 一 
些 钙 汽车 根据 传感器 的 实时 信号 识别 出 的 移动 物体 。 通 党 使 用 彩色 编 
码 和 图 标 ， 来 可 视 化 那些 经 党 出 现 的 物体 所 对 应 的 占据 顶 格 。 
图 14.27 是 谷歌 无 人 车 在 一 个 十 字 路 口 ， 根 据 传 感 硕 数据 进行 物体 识别 
所 得 到 的 占据 栅 格 ， 县 加 显示 在 高 精度 地 图 上 。 


有 了 占据 栅 格 就 知道 物体 当前 时 刻 的 位 置 。 显 然 这 还 不 够 ， 目 动 
当 驶 汽车 还 需要 知道 物体 在 未 来 时 间 可 能 出 现在 哪些 位 置 。 


不 确定 性 锥 融 是 用 来 预测 汽车 附近 物体 的 位 置 和 移动 速度 的 工 
具 。 一 旦 基于 深度 学 习 的 物体 识别 模块 标记 了 一 个 物体 ， 占 据 栅 格 惑 
会 显示 出 它 的 存在 ， 不 确定 性 锥 丈 会 预测 物体 下 一 步 的 运动 方 同 。 


图 14.27 ”谷歌 无 人 车 根据 传感器 数据 进行 物体 识别 所 得 到 的 占据 桶 本 


不 确定 性 锥 为 无 人 驾驶 汽车 提供 了 人 工 智能 版 的 场景 理解 能 
当 人 类 司机 看 到 行人 站 得 离 汽 车 太 近 ， 他 就 会 在 脑海 中 思考 要 转向 避 
F; 在 无 人 鸭 驶 汽车 中 ， 利 用 不 确定 性 锥 技术 也 会 进行 类 似 的 “脑海 思 
考 *。 像 是 消防 栓 这 样 静止 的 物体 ， 会 用 一 个 瘦小 的 圆锥 体 表示 ， 因 为 
它 基 本 不 大 可 能 会 移动 。 相 比 之 下 ， 快 速 移动 的 物体 会 用 一 个 宽大 的 
圆锥 体 表 示 ， 因 为 它 可 能 运动 到 的 地 方 比较 多 ， 所 以 它 将 来 的 位 置 是 
不 确定 的 。 人 类 驾驶 员 并 不 会 在 脑海 中 将 附近 的 每 一 个 物体 清晰 地 标 
记 成 椭圆 锥 体 。 然 而 ， 不 确定 性 锥 与 人 类 潜意识 中 的 处 理 过 程 是 大 致 
相同 的 。 我 们 的 大 脑 不 断 记 录 更 新 着 周围 出 现 的 人 和 物体 ， 结 合 以 往 
的 经 验 和 眼前 事物 的 状态 ， 我 们 能 猜测 出 这 些 周边 事物 的 意图 并 预测 
出 它们 下 一 步 会 做 什么 。 


中 层 控制 软件 按照 如 下 方法 创建 不 确定 性 锥 ， 首先， 在 平面 上 男 
出 一 个 物体 ， 在 物体 周围 画 一 个 小 圆圈 ， 我 们 称 它 为 “当前 活动 圈 ”，; 
然后 ， 再 画 一 个 大 圆圈 ， 标 记 出 未 来 10 秒 后 物体 可 能 会 到 达 的 所 有 位 
置 ， 被 称 为 “未 来 活动 圈 ”。 最 后 ， 用 两 条 线 把 小 圆 和 大 圆 的 边缘 连接 
起 来 。 这 就 古 不 确定 性 锥 。 


不 确定 性 锥 蔡 代 了 人 类 区 驶 员 与 行人 之 间 的 眼神 交流 作用 。 从 无 
人 区 驶 汽车 的 视角 来 看 ， 一 个 站 在 路 边 面 回 街道 的 行人 会 用 稍微 癌 前 
倾斜 的 锥 体 表 示 ， 表 明 她 随时 可 能 罕 过 街道 。 如 采 她 的 眼睛 不 是 盯 痢 
前 方 ， 而 古 采 着 手机 ， 她 的 锥 体 图 标 则 是 男 一 种 形状 ， 或 许 更 加 罕 
小 ， 因 为 她 并 没有 准备 好 继续 前 进 。 如 有 果 她 扫 视 了 一 有 眼 无 人 营 驶 汽 
车 ， 她 的 锥 体 图 标 将 进一步 缩小 ， 因 为 汽车 的 软件 会 识别 到 她 看 见 了 


这 辆 车 ， 也 就 不 太 可 能 挡 在 汽车 的 前 进 路 线 上 。 越 不 可 预知 的 行人 ， 
维 体 的 形状 束 越 大 。 播 摆 不 定 的 目 行 车 骑 行 者 比 静 止 的 行人 有 更 大 的 
不 确定 性 ， 相 应 的 锥 体 也 整 更 大 。 四 处 乱 撞 的 小 狗 或 仍 着 球 跑 的 孩 
子 ， 则 会 用 更 大 的 锥 体 表 示 。 


有 时 ， 有 即使 一 个 静态 的 目标 也 可 能 会 用 一 个 大 号 锥 体 表 示 其 不 确 
定性 ， 比 如 有 具有 让 蔽 性 的 建筑 ， 虽 然 它 们 本 喘 不 大 可 能 移动 ， 但 是 可 
能 会 遮蔽 一 些 移动 的 物体 。 对 于 死胡同 、 转 弯 处 ， 或 随时 可 能 会 有 乘 
客 下 车 的 一 辆 停 在 路 边沿 开车 门 的 汽车 ， 无 人 芍 驶 汽车 的 中 层 软件 系 
统 都 会 标记 一 个 大 号 的 不 确定 性 锥 。 藤 目的 校车 也 可 能 会 产生 不 确定 
es A 


当 汽车 附近 的 物体 都 被 标记 并 表示 成 了 大 小 不 一 的 不 确定 性 锥 ， 
一 个 称 为 ”轨迹 规划 器 ”的 模块 ， 就 能 据 此 计算 出 最 佳 行 进 路 线 ( 见 图 
14.28) ， 并 保证 遵守 交通 规则 ， 减 少 行程 时 间 和 碰撞 风险 。 
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图 14.28 ”根据 周围 物体 的 不 确定 性 锥 ， 轨 迹 规划 器 能 计算 出 最 佳 行进 路 线 
@ 自动 驾驶 的 商业 化 


人 工 帝 能 的 很 多 应 用 场景 有 较 宽 松 的 容错 性 ， 例 如 扫地 机 右 人 擅 
到 障碍 物 ， 可 以 退 后 再 找 路 径 ，Siri 的 语音 识别 错 了 ， 用 户 多 说 几 遍 就 
行 了 。 然 而 目 动 区 驶 应 用 ， 则 要 求 更 加 严 苛 的 安全 标准 。 因 为 汽车 中 
的 人 工 稼 能 算法 出 错 ， 市 来 的 损失 是 无 法 挽回 的 。 例 如 ， 在 时 速 100 公 
里 每 小 时 的 车 上 ， 把 路 边 一 个 穿越 马路 的 行人 总 判 为 静止 的 柱子 ， 将 
会 直接 导致 伤亡 ， 后 果 不 堪 设想。 


基于 这 个 原因 ， 现 有 的 自动 芍 驶 商业 部 署 ， 主 要 在 封闭 的 园区 和 
有 严格 管控 的 固定 线路 。 例 如 ， 伦 敦 的 希 思 罗 国际 机 场 用 自动 芍 驶 捍 
渡 车 在 停车 场 和 T5 航 站 楼 之 间接 送 乘 客 ， 如 图 14.29 所 示 。 这 一 运输 服 
务 叫 希 思 罗 Pod， 从 2011 年 起 投入 运营 。 任 何 乘客 都 可 以 从 希 思 罗 T5 
航 站 楼 免费 搭乘 。 
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图 14.29 (RNa ES EL Bob ee ee 


类 似 的 适合 (E) 封闭 路 段 的 车 型 还 有 Induct Navia ( 见 图 14.30) 
和 Arma 〈 见 图 14.31) ， 它 们 的 出 现 也 一 步 步 引 领 自 动 芍 驶 走向 商业 化 
的 道路 。 


图 14.30 ”和 售 价 25 万 美元 的 Induct Navia， 可 载 8 人 ,行驶 速度 20km/h 


图 14.31 Navya 公 司 推出 的 Arma 行 驶 速度 20kmh 自动 车 ， 可 以 载 15 人 ， 行驶 速度 45km/h 

此 外 ， 由 于 目 动 要 驶 中 的 关键 传感器 部 件 激 区 雷达 的 成 本 居 高 不 
下 ， 货 车 的 单价 和 轰 驶 员 成 本 更 高 ， 而 且 货 车 的 使 用 场景 在 高 速 或 封 
闭 的 港口 等 ， 所 以 它 可 能 比 家 用 轿车 更 早 的 实现 自动 要 驶 的 商用 。 

e 自动 驾驶 算法 工程 师 需 要 具备 的 技能 

看 完 以 上 的 介绍 ， 读 者 或 许 已 经 跃跃欲试 要 投 叶 这 场 即将 到 来 的 
技术 革命 。 如 能 在 以 下 三 个 领域 之 一 有 比较 扎实 的 基础 ， 就 可 以 比较 
容易 地 拿 到 自动 芍 驶 相关 领域 的 offer， 成 为 自动 芍 驶 算法 工程 师 了 。 

计算 机 视觉 : 深度 学 习 ， 道 路 标牌 识别 ， 车 道 线 检测 ， 车 辆 跟 
踪 ， 物 体 分 割 ， 物 体 识别 。 


传 感 和 控制 : 信号 处 理 ，Kalman 滤 波 ， 自 动 定 位 ， 控 制 理论 
(PID 控 制 ) ， 路 径 规划 。 


系统 集成 ， 机 器 人 操作 系统 ， 巾 入 式 系统 。 
现在 已 有 不 少 专门 的 目 动 区 驶 培训 班 或 葵 读 ， 可 以 帮助 大 家 更 加 


深入 地 、 系 统 地 学 习 以 上 技术 ， 也 预 祝 读者 们 在 相关 领域 有 所 建树 ， 
在 通 癌 offer 的 道路 上 一 路 绿灯 。 


04 机 器 翻译 


m 机 器 翻译 是 什么 ? 


机 器 翻译 是 计算 语言 学 的 一 个 分 支 ， 也 是 人 工 智能 领域 的 一 个 重 
要 应 用 ， 其 最 早 的 相关 研究 可 以 追溯 到 20 世 纪 50 年 代 。 


随 着 互联 网 的 飞速 发 展 ， 人 们 对 语言 翻译 的 需求 与 日 俱 增 。 根 据 
维基 百科 的 数据 ， 目 前 互联 网 上 存在 数 百 种 不 同 的 语言 ， 其 中 英语 内 
容 占 互 联网 全 部 内 容 的 一 半 左 右 ， 而 以 英语 为 母语 的 互联 网 用 户 只 
全 部 互联 网 用 户 的 四 分 之 一 。 跨 域 语言 屏障 ， 获 取 互联 网 上 更 多 的 内 
容 是 持续 增长 的 需求 。 


机 句 翻 译 ， 即 通过 计算 机 将 一 种 语言 的 文本 翻译 成 男 一 种 语言 ， 
已 成 为 目前 解决 语言 屏障 的 重要 方法 之 一 。 早 在 2013 年 ， 合 歌 翻 译 每 
天 提供 翻译 服务 束 达 十 亿 次 之 多 ， 相 当 于 全 球 一 年 的 人 工 翻译 量 ， 处 
理 的 文字 数量 相当 于 一 百 万 册 图 书 。 


n 机 器 翻译 技术 的 发 展 


机 俩 翻译 的 研究 经 历 了 基于 规则 的 方法 、 基 于 统计 的 方法 、 基 于 
神经 网 络 的 方法 三 个 阶段 的 发 展 。 在 机 器 翻译 研究 的 早期 ， 主 要 使 用 
基于 规则 的 方法 。 机 妖 翻 译 系统 根据 语言 专家 编写 的 翻译 规则 进行 翻 
译 ， 这 征 一 个 机 械 式 的 过 程 。 基 于 规则 的 方法 受 限 于 人 工 编写 的 规则 
的 质量 和 数量 ， 编 写 规则 非常 费时 费力 ， 且 翻译 规则 无 法 用 于 不 同 的 
语言 对 之 间 。 同 时 ， 规 则 数量 增多 ， 互 相 冲 突 的 规则 也 随 之 增多 ， 难 
以 覆 震 人 类 语言 的 全 部 情况 ， 这 也 是 机 需 翻 译 系统 的 瓶颈 。 


20 世 纪 90 年 代 ， 基 于 统计 的 机 器 翻译 方法 被 提出 ， 随 后 迅速 成 了 
机 器 翻译 研究 的 主流 方法 。 统 计 机 器 翻译 使 用 双语 平行 语料库 ( 即 同 
时 包含 源 语 言 和 与 其 互 为 译文 的 目标 语言 文本 的 语料库 ， 作 为 训练 数 
据 。 世 人 熟知 的 罗 塞 塔 石 碑 〈 见 图 14.32) 可 以 认为 是 古老 的 平行 语 料 
库 ， 石 碑 上 用 圣 书 体 、 世 俗 体 、 古 希腊 语 三 种 文字 记录 了 相同 的 内 
A o 正 是 风 玫 培 石 碑 的 发 现 才 使 得 语言 学 家 们 钓 得 了 破译 革 书 体 的 铀 
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图 14.32 ”有 罗 塞 塔 石碑 


统计 机 器 翻译 模型 从 平行 语 料 中 挖 气 出 不 同 语言 的 词语 间 的 对 齐 
关系 ， 基 于 对 齐 关 系 目 动 抽 取 翻 译 规则 。 一 个 经 典 的 统计 机 右 翻 译 模 
型 通常 包含 翻译 模型 、 调 序 模型 和 语言 模型 三 部 分 。 翻 译 模型 负责 佑 
算 单 词 、 短 语 间 互相 翻译 的 概率 ， 调 序 模型 对 翻译 后 的 语言 片段 排序 
进行 建 模 ， 而 语言 模型 则 用 于 计算 生成 的 译文 是 否 符合 目标 语言 的 表 
达 习 惯 。 统 计 翻译 模 型 减少 了 人 工 参 与 ， 模 型 本 身 和 训练 过 程 具有 语 
言 无 天 性 ， 大 大 提升 了 机 器 翻译 的 性 能 和 使 用 范围 。 


近年 来 随 着 基于 神经 网 络 的 方法 被 引入 机 器 翻译 领域 ， 机 器 翻译 
的 性 能 得 到 了 大 幅 提 高 。 根 据 谷 歌 机 器 翻译 团队 发 布 的 信息 ， 谷 歌 翻 
译 于 2016 年 9 月 上 线 中 英 神经 网 络 模型 ， 截 至 2017 年 5 月， 已 经 支 
0 5% ener er mt 
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神经 网 络 模型 同样 需要 使 用 平行 语料库 作为 训练 数据 ， 但 和 统计 
机 器 翻译 将 模型 拆 解 成 多 个 部 分 不 同 ， 神 经 网 络 模型 通常 是 一 个 整体 
的 序列 到 序列 模型 。 以 常见 的 循环 神经 网 络 为 例 ， 神 经 网 络 模 型 首先 
需要 将 源 语言 和 目标 语言 的 词语 转化 为 向 量 表达 ， 随 后 用 循环 神经 网 
络 对 翻译 过 程 进行 建 模 ， 如 图 14.33 所 示 。 通 常会 先 使 用 一 个 循环 神经 
网 络 作为 编码 器 ， 将 输入 序列 ( 源 语言 句子 的 词 序列 ) 编码 成 为 一 个 
向 量 表示 ， 然 后 再 使 用 一 个 循环 神经 网 络 作为 解码 右 ， 从 编码 器 得 到 
的 向 量 表示 里 解码 得 到 输出 序列 (目标 语言 句子 的 词 序 列 ) 。 
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14.33 ”循环 神经 网 络 


神经 网 络 模 型 近年 来 已 经 成 为 机 器 翻译 领域 研究 和 应 用 的 热点 ， 
对 于 神经 网 络 翻 译 模型 有 很 多 新 的 改进 ， 例 如 LSTM、 注 意 力 机 制 、 
训练 目标 改进 、 无 平行 语 料 训 练 等 ， 机 颖 翻译 系统 的 性 能 正如 日 方 
Tt, 一 步 步 接近 人 类 水 平 。 


m 机 器 翻译 的 应 用 


目前 来 说 ， 机 器 翻译 的 效果 还 难以 达到 人 类 翻译 的 水 平 ， 但 是 随 
着 机 融 翻 译 性 能 的 提升 ， 其 应 用 场景 也 越 来 越 多 样 化 。 谷 歌 2006 年 推 
出 的 谷歌 翻译 (Google Translate) 已 经 走 过 十 几 个 年 头 ， 目 前 已 经 文 
持 上 百 种 不 同 语 言 ， 提 供 了 网 页 、 手 机 客户 端 、 程 序 API 等 多 种 访问 
方式 。2017 年 5 月 的 数据 显示 ， 人 谷歌 翻译 每 天 为 5 亿 人 次 提供 翻译 服 
务 。 微 软 、 百 度 、 搜 狗 、 网 易 等 国内 外 公司 也 不 断 优化 着 目 己 的 机 器 
翻译 服务 ， 供 大 众 使 用 。 各 种 类 型 的 机 需 翻 译 服务 虽然 暂时 还 无 法 直 
接 用 于 书面 翻译 ， 但 人 们 理解 其 他 语言 的 壁垒 已 经 大 大 降低 ， 在 很 多 
场景 下 机 器 翻译 都 起 到 了 很 好 的 辅助 作用 。 


出 国旅 游 时 ， 语 言 不 通 是 很 多 人 的 一 大 痛 点 。 各 种 手机 App 的 扫 
图 翻译 使 人 们 可 以 方便 快捷 地 看 慌 异 国 他 乡 的 路 标 或 菜单 等 ， 如 图 
14.34 所 示 。 百 度 、 网 易 等 公司 将 机 右 翻 译 成 果 用 于 旅游 领域 ， 推 出 专 


门 的 便携 式 翻 译 机 〈 见 图 14.35) ， 只 要 对 着 翻译 机 说 出 中 文 ， 就 能 自 


动 帮 用 户 翻译 成 其 他 语言 ， 可 谓 是 出 国旅 游 神 器 。 
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图 14.34 ” 合 歌 翻译 的 拍 图 翻译 


图 14.35 ”百度 的 便携 翻译 机 


伴随 着 机 器 翻译 性 能 的 提升 ， 各 大 公司 的 目标 也 逐渐 放 到 了 同 传 
领域 。 在 2016 年 的 马 镇 互联 网 大 会 上 ， 搜 狗 CEO 在 演讲 中 使 用 了 实时 
机 器 翻译 技术 ， 能 够 实时 地 将 演讲 语音 转换 成 文字 并 同步 翻译 成 英 
文 ，2018 年 的 博 敖 论坛 引入 了 腾讯 提供 的 机 右 翻 译 同 传 技 术 ， 然 而 实 
际 效 果 并 不 尽 如 人 意 。 可 见 ， 目 前 的 机 器 翻译 模型 虽然 已 有 很 大 的 进 
步 ， 但 距离 蔡 代 人 类 ， 在 同 传 领域 大 展 拳脚 还 有 很 长 的 一 段 路 要 走 。 


机 如 翻 译 领域 吸引 了 越 来 越 多 的 关注 ， 同 时 也 面临 着 巨大 的 挑 
战 。 如 何 克 服 现 有 的 缺陷 〈 例 如 神经 网 络 模型 可 解释 性 差 的 问题 ) ， 


实现 翻译 性 能 的 进一步 提高 仍 是 一 个 竺 解决 的 问题 。 现 阶段 机 融 翻 译 
的 应 用 仍 处 于 簿 单 理解 其 他 语言 、 辅 助 翻译 等 方面 ， 离 大 规模 替代 人 
工 翻译 还 有 不 小 的 差距 。 但 随 着 业界 的 广 沁 关注 ， 人 才 的 不 断 涌 入 ， 
机 器 翻译 领域 将 持续 芝 动 发 展 ， 人 类 世界 的 巴 别 塔 也 终 会 得 以 重建 。 


05 ”人 机 交互 中 的 智能 计算 


人 机 交互 (Human computer interaction) ， 顾 名 思 义 ， 是 研究 人 
(HP) 和 计算 机 之 间 交 互 方式 的 学 科 ， 是 人 通过 交互 界面 的 一 系列 
输入 和 计算 机 提供 的 输出 反馈 来 完成 一 项 任务 或 者 达到 一 个 目标 的 过 
Fe ( 见 图 14.36) 。 人 机 交互 是 一 门 交 叉 学 科 ， 与 计算 机 科学 、 人 机 工 
` 认 知 学 、 心 理学 、 媒 体 研 究 、 设 计 等 多 门 学 科 都 有 
密切 关联 。 


人 机 交互 也 可 谓 人 工 智能 集大成 的 方 各 。 在 人 机 交互 的 过 程 中 ， 
语音 识别 、 图 像 识别 让 机 器 能 够 理解 人 类 的 输入 信号 ; 各 类 预测 模 
型 、 增 强 学 习 模 型 帮助 机 磊 做 出 有 效 且 理性 的 判断 ， 并 使 其 具备 学 习 
的 能 力 ;， 稼 能 控制 类 方法 让 机 器 完成 人 类 指定 的 动作 或 者 进行 有 效 的 
反馈。 可 以 说 人 机 交互 中 强 舍 着 人 工 闹 能 的 方方面面 ， 人 机 交互 的 融 
速 发 展 意味 着 人 工 智能 水 乎 的 整体 进步 。 


图 14.36 人 机 交互 示意 图 


在 过 去 的 几 十 年 中 ， 人 机 交互 领域 的 研究 取得 了 长 足 的 发 展 ， 其 
中 经 历 了 三 次 重要 的 飞跃 : 一 是 20 世 纪 70 年 代 初 ， 人 机 界面 的 概念 被 


正式 提出 ， 第 一 次 人 机 系统 国际 大 会 召开 ， 第 一 个 相关 专业 厅 志 
(IJMMS) 创刊 ， 多 家 研究 机 构 和 公司 相继 成 立 了 人 机 交互 界面 研究 
中 心 ， 这 个 时 期 是 人 机 交互 领域 的 黄 基 时 期 ;二 是 20 世 纪 80 年 代 初 
期 ， 人 机 交互 学 科 逐 渐 形 成 了 自己 的 理论 体系 和 实践 架构 ， 在 理论 体 
系 上 更 加 强调 认 知 心理 学 以 及 行为 学 和 社会 学 等 某 些 人 文科 学 的 理论 
指导 ， 在 实践 架构 中 则 更 加 强调 计算 机 对 于 人 的 反馈 交互 作用 ， 人 机 
界面 /接口 一 词 也 被 人 机 交互 所 取代 ; 三 是 20 世 纪 90 年 代 后 期 ， 随 着 高 
速 处 理 芯 片 、 多 媒体 技术 和 Internet Web 技 术 的 迅速 发 展 和 普及 ， 人 机 
交互 的 研究 重点 放 在 了 人 机 协同 交互 、 多 模 态 (多 通道 ) 与 多 媒体 交 
ee er eae 
交互 技术 ° 


2010 年 之 后 ， 伴 随 看 计算 货源 、 网 络 市 宽 和 智能 设备 的 进一步 发 
展 ， 以 及 机 大学 习 在 大 数据 领域 的 应 用 和 深度 神经 网 络 的 崛起 ， 多 项 
人 机 交互 领域 的 核心 技术 取得 质 的 突破 。 计 算 机 设备 开始 具备 一 定 的 
镶 能 化 ， 可 以 六 致 听 全 人 资 的话， 看 全 周围 的 环境 ， 并 理解 用 户 的 动 
作 和 行为 。 人 机 交互 领域 也 进入 第 四 个 发 展 阶段 ， 即 智能 交互 时 代 。 


随 着 智能 交互 时 代 的 到 来 ， 人 机 交互 领域 气 人 工 智能 领域 之 间 不 
再 有 任何 间 除 ， 人 机 交互 的 终极 形态 似乎 殴 是 让 机 融 也 具有 高 度 的 智 
能 ， 能 与 人 顺畅 地 沟通 交流 ， 能 够 目 主 、 高 效 地 完成 人 类 赋予 的 任 
务 。 但 类 似 目 然 人 交互 的 人 机 交互 方式 真 的 是 最 合理 、 最 融 效 的 方式 
吗 ? 我 们 需要 关心 机 右 在 想 什 么 ， 它 是 如 何 完 成 我 们 的 任务 的 吗 ? 真 
的 存在 一 种 终极 的 、 统 一 的 人 机 交互 方式 吗 ? 这 是 我 们 对 未 来 的 疑 
问 ， 接 下 来 束 让 我 们 一 起 面 同 未 来 探讨 一 下 这 些 问题 。 


人 机 交互 将 回归 自然 ? 


有 人 人 简单 地 把 交互 的 发 展 方 同 定 位 为 目 然 人 机 交互 ， 但 这 是 不 科 
学 或 者 说 不 准确 的 。 计 算 机 设备 从 诞生 的 那天 起 ， 它 就 是 非 自 然 的 产 
物 。 人 和 设备 的 交互 方式 主要 以 人 适应 设备 为 主 ， 例 如 入 们 使 用 的 
QWERT 链 盘 、 和 鼠标 、 触 摸 板 等 ， 或 者 在 方 方 正 正 的 显示 屏 上 查阅 输出 
反馈 信号 等 交互 方式 均 非 目 然 的 交互 方式 。 


在 智能 交互 时 代 ， 智 能 化 和 小 型 化 的 设备 可 以 藤 入 到 衣服 、 鞋 、 
戴 的 眼镜 、 手 上 的 胸 表 ， 抑 或 周围 环境 中 的 桌 了 于、 椅 了 于、 镜子 、 音 箱 
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通常 需要 设备 提供 一 定 的 辅助 信号 来 实现 人 机 交互 ， 而 非 沿 用 
“AA BENE Ais, PMA Bebe ee LAs + AREER AFA 
互 、 智 能 果 面 上 的 手掌 归 拢 手势 等 。 
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图 14.37 ”人 机 区 互 的 方式 从 键 副 鼠标 演变 成 智能 手表 等 可 穿戴 设备 


准确 地 说 ， 智 能 交互 最 终 将 在 人 性 化 方面 回归 。 这 主要 是 因为 ， 

尽管 人 与 智能 设备 的 交互 方式 可 能 各 不 相同 ， 于 变 万 化 ， 但 智能 交互 
设计 通 向 会 遵循 以 下 两 条 路 径 进行 优化 : 一 个 是 理性 路 径 ， 人 通过 观 
察 、 阅 读 或 理解 ， 看 全 了 交互 或 者 反馈 提供 的 信息 ， 例 如 按钮 上 的 文 
字 或 者 屏 医 上 的 数字 ， 用 "理性 脑 ” 的 思考 打通 意识 环 世 ， 整 理 信息 并 
触发 交互 的 下 一 步 ， 另 一 个 是 感性 路 径 ， 人 通过 视觉 、 听 觉 、 触 觉 等 
感官 感受 到 的 物体 属性 ， 如 可 旋转 的 圆 形 旋 钮 、 腕 着 绿灯 的 开关 和 人 燃 
气 炉 火 焰 的 大 小 ， 通 过 感性 思考 触发 交互 的 下 一 步 。 显 而 易 见 ， 采 用 
这 两 条 路 径 的 交互 设计 方案 也 一 定 是 人 性 化 的 。 


但 “< 人 性 化 ”不 完全 等 同 于 “拟人 化 ”"， 目 然 人 之 间 的 交互 方式 也 不 
定 征 最 高 效 的 。 从 人 的 角度 出 发 ， 针 对 特定 功能 和 智能 设备 本 身 的 
特点 制定 特定 的 交互 方式 才 应 该 是 最 合适 的 人 机 交互 方式 。 


a 人 机 交互 会 黑 盒 化 吗 ? 


人 机 交互 是 一 个 人 输入 信息 、 计 算 机 输出 反馈 的 序列 过 程 。 在 过 
去 多 年 的 发 展 中 ， 即 时 地 输出 反馈 一 直 古 人 机 交互 必 不 可 少 的 重要 环 
节 之 一 。 人 不 仅 可 以 通过 即时 反馈 修订 交互 策略 ， 还 可 以 获取 对 设备 
的 控制 感 ， 人 和 设备 是 主 从 关系 。 在 智能 交互 时 代 ， 设 备 的 智能 化 程 
度 越 来 越 高 ， 目 主 判决 能 力也 越 来 越 强 。 尽 管 祝 能 算法 中 的 参数 数量 
随 之 水 涨 船 高 ， 但 显然 人 对 结果 更 感 兴 趣 而 不 关心 其 中 的 逻辑 和 过 
程 ， 例 如 识别 并 运算 复杂 的 手写 公式 、 呼 叫 Alexa 《亚马逊 推出 的 智能 
语音 助手 ) 播放 最 新 的 科幻 电影 、 解 放 双手 让 计算 机 完成 自动 区 驶 
等 。 智 能 交互 时 代 ， 人 和 设备 更 像 是 一 个 代理 关系 ， 人 布置 任务 ， 计 
算 机 完成 复杂 的 任务 后 反馈 结果 。 乔 能 运算 的 过 程 日 趋 黑 盒 化 。 


近年 来 越 来 越 多 的 学 者 和 人 研究 人 员 发 现 ， 智 能 算法 可 能 会 产生 仿 
见 。 引 起 入 能 算法 偏见 的 原因 有 多 种 ， 例 如 “互动 偏见 "， 当 机 器 被 设 
定 问 周围 环境 学 习 时 ， 环 境 输 入 好 坏 混 杂 的 信息 将 引起 智能 设备 市 有 
偏见 ， 例 如 学 会 说 脏话 或 者 融 有 种 族 上 收视 的 聊天 机 器 人 ， 古 由 于 训练 
数据 本 身 因 素 市 来 的 “数据 偏见 "”。 再 比如 搜索 医生 照片 ， 结 果 可 能 会 
先 呈 现 男性 照片 ， 而 搜索 护士 照片 时 则 反之 ， 又 或 者 反馈 处 女 座 更 易 
有 六 六 ，7 月 出 生 的 人 更 聪明 等 奇怪 的 结论 。 而 “模型 偏见 ”是 指 因数 据 
缺失 导致 算法 模型 可 能 会 放大 某 类 决策 从 而 做 出 不 公平 的 判决 ， 例 如 
快递 服务 绕 开 黑 人 社区 、 为 女性 推荐 低 薪 工作 等 。 


同时 ， 人 们 还 发 现 ， 在 一 些 领 域 ， 智 能 设备 如 果 具 有 过 高 的 目 主 
决 倘 权 ， 决 策 错 误 可 能 引发 严重 后 果 ， 例 如 2018 年 3 月 Uber 的 无 人 芍 驶 
汽车 在 车 道 线 错误 和 缺失 的 情况 下 撞 癌 护栏 ， 智 能 音箱 Alexa 会 在 半夜 


偶尔 发 出 奇怪 的 笑 声 等 。 


事实 上 墨盒 化 已 经 开始 引起 人 对 智能 设备 的 不 信任 ， 越 来 越 多 的 
研究 工作 开始 侧重 增加 智能 设备 的 决策 透明 性 。 提 供 更 多 的 即时 反馈 
信息 是 一 种 缓解 担忧 的 方法 ， 例 如 在 观看 影视 剧 时 ， 显 示 推 荐 的 理由 
会 让 用 户 增强 使 用 服务 的 信心 。 在 出 错 代 价 高 昂 的 交互 领域 ， 智 能 设 


备 则 需要 采取 更 加 保守 的 智能 党 略 ， 交 出 部 分 决策 权 并 提供 更 多 辅助 
信息 来 优化 最 终 的 决策 。 考 虑 到 智能 设备 可 能 处 理 的 海量 数据 和 人 所 
能 承受 的 交互 负 倚 ， 智 能 交互 最 终 一 定 会 在 墨盒 化 和 透明 化 之 间 达 成 
某 种 程度 的 妥协 。 


a 会 有 一 种 普遍 适用 的 交互 方式 吗 ? 


在 智能 交互 时 代 ， 越 来 越 多 形态 各 异 的 设备 能 入 小 型 化 的 智能 心 
片 成 为 智能 交互 体 ， 给 人 类 工作 和 生活 带 来 极 大 的 便利 。 那 么 是 否 会 
存在 一 种 普 衣 适用 的 交互 方式 ， 可 以 应 用 到 各 种 各 样 的 设备 形态 呢 ? 


答案 可 能 是 否定 的 。 智 能 交互 方式 的 多 样 化 使 得 智能 设备 具有 较 
大 的 差异 性 ， 主 要 体现 在 环境 感知 能 力 、 交 互 展示 能 力 、 链 接 能 力 和 
幅 入 能 力 等 ， 这 些 差 异 决定 了 交互 的 形态 的 不 同 。 


环境 感知 能 力 ， 贴 身 的 可 和 罕 戴 设备 有 能 力 检 测 心 跳 、 肌 肉 变化 ， 
智能 桌面 需要 感知 放置 的 物体 、 分 辨 多 个 操作 人 ， 而 Microsoft Kinect 
设备 〈 见 图 14.38) 则 具备 重建 操作 环境 的 能 力 ， 不 同 的 感知 能 力 自 然 
需要 不 同 的 交互 方式 。 例 如 与 40mm 显 示 屏 的 腕 表 主 要 通过 禹 击 、 单 
指 滑动 进行 交互 ， 而 8 英寸 的 平板 电脑 则 主要 通过 单 指 或 者 多 指 交 互 ; 
在 50 英 寸 的 智能 桌面 上 交互 则 更 倾 回 于 用 双手 多 指 、 手 掌 或 手掌 侧 进 
行 区 互 ， 而 且 可 以 借助 物品 与 设备 进行 虚实 交互 ;在 100+ 英寸 的 投影 
和 Kinect 设 备 下 ， 人 们 则 更 倾 问 于 使 用 整个 号 体 姿势 ， 甚 至 借助 一 些 
控制 器 进行 交互 。 


l ý ý XBOX 360 


图 14.38 ”微软 推出 的 体感 外 设 Kinect 
@ 智能 交互 的 未 来 


在 人 工 智能 的 浪潮 之 匮 ， 我 们 应 该 为 喘 处 这 样 一 个 伟大 的 时 代 感 
到 庆幸 。 对 于 致力 于 下 一 代 知 能 交互 技术 车 新 的 工程 师 们 来 说 ， 这 更 


征 一 个 创新 进发 、 日 新 月 异 的 时 代 ， 你 的 每 一 份 页 献 都 可 能 会 改变 人 
们 的 生活 ， 成 为 这 个 轿 新 的 智能 世界 中 的 一 段 基 因 。 


在 未 来 的 某 一 天 ， 也 许 所 有 人 都 可 以 不 再 纠结 于 茫然 费解 的 各 色 
产品 说 明 书 ， 只 需要 对 智能 管家 说 一 句 话 ， 甚 至 只 需要 意念 的 控制 ， 
忠 能 让 家 中 的 所 有 电器 和 设备 为 你 服务 ， 也 许 我 们 的 AI 助 手 会 在 我 们 
情绪 失落 的 时 候 送 上 一 首 舒 缓 的 歌 ， 在 即将 下 十 的 时 候 放 一 把 雨伞 在 
门口 ， 在 你 想 款 竺 朋友 的 时 候 提前 为 你 预定 合适 的 餐厅; 也 许 我 们 可 
以 像 * 钢 铁 侠 ? 一 样 ， 在 一 个 虚拟 的 空间 中 挥舞 下 手臂 ， 便 能 完成 一 件 
伟大 工业 品 的 设计 ， 也 许 我 们 已 经 打破 了 现实 和 虚拟 的 界限 ， 正 目 由 
穿梭 于 不 同 世界 间 的 “ 结 界 ”， 获 得 与 众 不 同 的 体验 。 


这 些 部 还 遥远 吗 ? 其 实 我 们 已 在 路 上 。 
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现任 Hulu 公 司 全 球 研 发 副 总 裁 ， 中 国 研 发 中 心 总 经 理 。 曾 任 
Landscape Mobile 公司 联合 创始 人 兼 CEO ， 前 雅虎 北京 全 球 研发 
中 心 产 品 总 监 ， 微 软 北 京 研发 中 心 项 目 总 经 理 ， 雅 虎 美国 高 级 软 
件 架构 师 。 


诸 净 越 获 美 国 斯 坦 福 大 学 的 计算 机 硕士 与 博士 ， 纽 约 州立 大 
学 石 溪 分 校 的 应 用 数学 硕士 ， 曾 束 读 于 清华 大 学 计算 机 科学 与 技 
术 系 。 诸 匈 越 的 研究 结 采 获 多 项 专利 ，2005 年 获 类 国 计 算 机 学 会 
数据 库 专 业 委 员 会 十 年 最 佳 论文 奖 。 


2017 年 年 底 我 的 亲子 教育 书 《 魔 时 老大 ， 天 使 老 二 》 出 版 ， 发 布 
的 时 候 被 称 为 “ 跨 界 ”。 那么 这 本 书 代表 我 彻 彻 改 故地 跨 了 回来 ， 回 到 
上 大 学 第 一 天 整 学 的 专业 人 工 知 能。 


这 本 书 的 核心 内 容 ， 都 是 由 公司 的 同事 们 撰写 的 。 我 只 是 个 发 起 
者 和 组 织 者 。 本 书 从 策划 到 完成 在 半年 左右 ， 古 一 个 完美 执行 的 项 
目 。 回 看 这 个 历程 ， 我 来 总 结 儿 点 。 
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家 。 我 们 有 非常 浓厚 的 学 习气 氛 : 每 两 周 的 技术 沙龙 和 科研 讲座 ， 内 


部 还 开设 了 深度 学 习 的 课程 。 有 丰 沃 的 土壤 ， 才 有 可 能 有 丰硕 的 花 
果 。 本 书 涵盖 大 量 的 内 容 ， 是 由 15 个 同事 分 工 协作 完成 ， 每 个 人 都 贡 
献 了 关键 的 章 攻 ， 也 都 参与 了 审阅 他 人 的 内 容 。 这 是 集体 的 成 采 ， 是 
高 效 合 作 的 成 采 。 


其 次 ， 这 个 项 目 开始 加 有 比较 好 的 规划 ， 在 第 一 次 讨论 后 就 基本 
定 下 了 全 书 结构 ， 安 排 了 分 工 ， 定 下 了 初稿 完成 日 期 。 虽然 在 许多 细 
节 上 不 断 地 改进 ， 但 是 大 的 方向 上 基本 没有 改动 。 如 我 在 编者 序 中 提 
到 ， 我 们 使 用 了 敏捷 开发 的 方法 ， 先 用 Hulu 的 微 信 公众 号 推出 了 30 篇 
文 草 ， 然 后 再 不 断 地 补充 、 丰 富 、 完 善 。 这 里 还 要 感谢 在 其 中 一 段 时 
间 帮 助 管理 进度 的 项 目 经 理 何 飞 。 


最 后 ， 在 所 有 内 容 大 致 成 型 的 情况 下 ， 需 要 感谢 几 位 伦 了 比 般 人 
多 一 们 时间 的 “主编 "， 包 括 王 靖 、 李 几 丁 、 汪 瑜 婧 、 江 云 胜 、 陈 拉 明 
等 。 他 们 把 收集 来 的 原始 内 容 加 以 整理 、 检 查 细 方 、 统 一 风格 、 填 补 
空白 。 开 始 做 一 件 事 不 难 ， 难 的 是 完成 ， 而 且 是 高 质量 的 完成 ， 而 这 
些 同 事 是 把 这 本 书 “ 打 过 终点 线 前 最 后 一 公里 ”的 关键 成 员 。 


感谢 人 民 邮 电 出 版 社 的 编辑 傅 彬 和 任 商 池 ， 一 路 给 我 们 的 支持 和 
专业 建议 。 最 后 ， 感 谢 男 一 位 Hulu 同 事 董 西 成 。 这 本 书 源 于 我 俩 之 间 
的 一 次 谈话 。 当 时 我 说 : “HAIRS AL eA Lae A RS 
人 才 ， 他 们 能 在 一 起 做 件 什 么 有 意义 的 事 呢 ? ” 董 西 成 说 : “让 他 们 一 
起 写本 书 吧 ! ” 


ia 


毕业 于 清华 大 学 计算 机 科学 与 技术 系 ， 现 任 Hulu 资 深 算 法 工 
程 师 、 品 友 互 动 效果 广告 算法 负责 人 、 监 色光 标 广 告 集团 算法 技 


术 经 理 。 申 请 计算 广告 相关 专利 两 项 ， 发 表 机 融 学 习 领 域 论文 6 
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我 与 机 器 学 习 的 初次 接触 是 在 2007 年 ， 当 时 清华 大 学 鼓励 所 有 本 
科 生 申请 学 生 科 人 研 项 目 ， 我 插 着 一 种 “直觉” 的 兴趣 选择 了 知识 工程 实 
难 室 唐 杰 老师 的 项 目 “ 语 义 Web”。 我 人 生 中 第 一 次 感受 到 算法 的 神奇 
与 魅力 ， 神 经 网 络 能 够 识别 图 片 中 的 字符 ， 话 题 模 型 能 够 挫 掘 出 文章 
的 湾 在 主题 ， 社 交 网 络 模型 甚至 能 够 识别 人 与 人 之 间 的 社会 关系 类 
型 。 虽 然 我 当时 参加 的 都 是 比较 native 的 项 目 ， 但 由 此 激发 的 兴趣 让 我 
受益 终 司 ， 从 此 立志 成 为 一 名 机 器 学 习 领 域 的 从 业者 。 


2013 年 我 研究 生 毕 业 ， 如 愿 以 偿 地 成 为 了 一 名 计算 广告 领域 的 算 
法 工程 师 。 而 机 天 学 习 的 思维 似乎 也 从 那 时 起 贯穿 了 我 生活 和 工作 的 
Hi ° 


我 清楚 地 记得 在 我 女儿 3 个 月 的 时 候 ， 她 会 一 次 又 一 次 地 重复 翻身 
的 动作 ， 不 断 的 失败 100 次 、101 次 ， 但 当 她 成 功 一 次 之 后 ， 束 再 也 不 
会 失败 了 “。 我 惊 瓜 于 人 类 “探索 与 利用 ”的 本 能 ， 也 惊叹 于 人 类 “增强 学 
习 ” 的 能 力 。 如 采 机 器 在 试 错 100 次 之 后 整 能 完全 掌握 一 项 技能 ， 那 得 
征 多 么 伟大 的 一 个 “增强 学 习 ? 模 型 啊 。 


几 年 前 我 读 了 一 本 哲学 类 书籍 叫 《 欧 洲 哲 学 史上 的 经 验 主 义 和 理 
性 主义 》， 经 验 派 认为 一 切 正确 的 科学 知识 都 必须 起 源 于 经 验 ， 而 理 
性 派 认 为 “< 天赋 观 念 ?"， 只 有 经 过 人 的 理性 检验 、 清 楚 明 日 的 观念 才 被 
认为 是 “真理 *”。 我 发 现 哲 学 领域 的 纷争 与 机 絮 学 习 领 域 的 纷争 出 奇 的 
Bt, Bae Lint ler are SF UTE o BA ia Sh 
的 统计 学 派 和 语言 学 派 ， 机 器 学 习 理 论 的 频率 学 派 和 贝 叶 斯 学 派 不 是 
正好 对 应 了 经 验 主义 和 理性 主义 的 基本 思想 吗 ? 


当 你 用 机 器 学 习 的 思维 思考 问题 的 时 候 ， 似 乎 生活 中 的 一 切 知 识 
都 能 够 与 机 右 学 习 的 理论 产生 联系 。 我 们 在 写作 的 过 程 中 也 试图 用 生 
活化 的 例子 解释 算法 的 思路 ， 在 掌握 方法 的 同时 能 够 认识 到 算法 的 本 
质 。 项 望 本 书 能 够 成 为 大 家 走 上 算法 工程 师 之 路 的 起 操 ， 也 布 望 为 大 
家 增添 一 份 对 机 器 学 习 世 界 的 激情 。 


江 云 胜 


2016 年 毕业 于 北京 大 学 数学 科学 学 院 ， 获 应 用 数学 博士 学 
位 。 毕 业 后 加 入 Hulu 北 京 研 发 中 心 的 Content Intelligence 组 ， 负 
责 图 像 /视频 内 容 理 解 相 关 的 研究 工作 。 


2017 年 秋 ， 在 越 姐 和 人 民 邮 电 出 版 社 俞 彬 编辑 的 提议 下 ， 我 们 着 
手写 一 本 机 顺 学 习 和 人 工 智 能 方面 的 书籍 。 当 时 ， 人 工 智能 正 处 于 一 
流 新 浪潮 中 ， 各 行 各 业 都 在 关注 ， 市 面 上 相关 书籍 也 很 多 ， 有 科普 
类 、 教 程 类 、 应 用 讲解 类 等 。 经 过 头脑 风暴 ， 大 家 诀 定 写 一 本 更 加 接 
地 气 的 、 关 于 面试 题 类 的 书籍 ， 以 知识 态 问 管 的 形式 ， 帮 助 从 业 人 员 
梳理 相关 知识 ， 也 让 更 多 人 了 解 这 个 行业 的 算法 工程 师 、 人 研究 人 员 们 ] 
日 常 工作 中 要 解决 的 问题 和 要 掌握 的 技能 。 


本 书 的 创作 大 致 分 两 个 阶段 : 第 一 个 阶段 是 内 容 采 集 ， 十 几 个 作 
者 根据 各 目 擅长 的 方向 ， 页 献 一 些 题目 和 对 应 的 解答 ; 第 二 个 阶段 是 
对 问题 和 解答 的 交叉 检验 、 对 全 书 结构 的 重组 、 对 写作 风格 的 统一 等 
后 期 工作 。 这 两 个 阶段 我 都 参与 了 ， 也 有 着 完全 不 同 的 感受 和 收获 。 
在 写 问 题 和 解答 时， 因为 是 目 己 熟悉 的 知识 点 ， 要 写 的 内 容 比 较 清 
晰 ， 但 是 如 何 把 目 己 的 想法 转化 为 文字 ， 让 别人 愿意 看 并 且 能 看 明 
日 ， 并 不 是 一 件 容易 事 ， 需 要 交代 清楚 问题 痛 景 、 明 确 解 题 思路 和 写 
作 逻 辑 等 。 在 交 广 检验 阶段 ， 经 营 会 遇 到 目 己 不 太 熟 悉 的 领域 ， 读 到 
不 确定 的 知识 点 时 ， 束 需要 停 下 来 查阅 和 资料、 文献 等 ， 确 你 无 误 。 这 
种 合作 创作 、 交 叉 检 验 的 方式 ， 让 我 也 学 到 了 很 多 自己 以 前 没有 注意 
到 的 知识 点 ， 有 时 候 在 针对 一 个 问题 的 讨论 过 程 中 还 会 衍生 出 一 些 新 


问题 。 


在 编写 本 书 的 这 段 时 间 内 ， 我 在 Hulu 参与 了 儿 十 场面 试 ， 书 中 不 
少 题目 被 直接 用 于 实际 面试 ， 部 分 题目 根据 面试 者 的 回答 进行 了 调 


整 ， 有 些 题目 还 据 此 添加 了 一 些 扩展 或 总 结 之 类 的 评论 。 在 这 里 也 特 
别 感 谢 这 些 作为 第 一 批 测试 用 户 的 面试 者 。 


虽然 这 是 一 本 面试 题 类 书籍 ， 但 并 不 是 鼓励 大 家 去 刷 题 ， 只 是 想 
通过 这 样 一 种 知识 点 问答 的 方式 ， 督 促 大 家 目 我 检查 、 局 发 思考 ， 对 
所 学 的 知识 点 查 重 补漏 。 在 通 往 机 需 学 习 和 人 工 智能 的 道路 上 ， 并 没 
Ue 扎实 地 学 好 基础 知识 、 塔 养 起 探索 求知 的 思维 习惯 才 是 
最 T 
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了 一 点 微小 的 页 献 。 


终于 到 了 一 本 书 收尾 之 时 ， 我 曾 对 “ 烂 尾 ” 有 过 “灿烂 的 结尾 ”这 一 
诠释 ， 不 知道 本 书后 记 中 的 这 段 文字 能 对 我 在 每 个 问题 字里行间 流露 
出 的 那些 感悟 和 思考 做 怎样 的 总 结 和 升华 。 刚 收 到 编辑 的 请 妃 要 在 后 
记 中 加 入 目 我 介绍 的 时 候 ， 内 心 是 激动 的 ， 想 着 终于 要 在 这 本 书 中 留 
下 属于 目 己 的 浓 垩 重 彩 的 一 笔 。 后 来 想 想 ， 或 许 只 有 那些 认识 我 的 、 
或 是 喜欢 从 后 往 前 看 书 的 读者 会 真正 看 到 这 里 吧 。 


当然 ， 如 果 大 家 仔细 学 习 了 本 书 的 第 13 草 ， 一 定 会 对 生成 式 对 抗 
网 络 的 思路 心 生 敬 戎 。 书 中 对 于 很 多 问题 的 思考 也 正 古 在 这 种 “对 
抗 * 的 背景 下 产生 的 ， 云 胜 和 我 曾 整 书 中 某 一 小 问题 下 看 似 不 起 服 的 一 
步 推导 讨论 至 深夜 ， 最 后 发 现 ， 我 们 “显而易见 ”的 结论 竟然 是 错误 
的 。 生 活 中 ， 这 样 的 对抗” 碰撞 出 的 火花 则 将 思维 的 灵光 一 现 ， 挫 之 


以 对 机 器 学 习 的 热爱 ， 酿 就 了 一 次 次 耐人寻味 的 思考 。 这 些 思考 或 是 
体现 在 书 中 的 点 点 滴 满 ， 或 是 化 为 茶余饭后 的 谈资 ， 都 将 成 为 人 生 中 
最 宝贵 的 一 笔 财富 。 


回想 研究 生涯 的 起 点 ， 或 许 要 妃 调 到 十 年 前 ， 彼 时 的 目 己 正 在 通 
往 职 业 围棋 的 道路 上 求 驼 。 虽 然 个 能 说 为 了 学 业 “ 因 隆 废 食 ”， 但 最 终 
还 是 没 能 坚持 住 从 五 尹 iy ay ee Eis 梦 。 当 AlphaGo 一 
吗 惊人 ， 以 压倒 性 优 李 世 石 时 ， 我 的 内 心 五 味 
杂 陈 。 不 仅 古 机 器 ARNE 后 技术 的 探讨 ， 圈 外 大 众 对 人 工 
智能 发 展 的 感慨 ， 双 或 是 棋 坛 对 这 项 游戏 起 源 、 变 化 的 奥秘 之 反思 ， 
而 是 ， 一 个 人 的 工作 、 生 活 、 以 及 理想 中 的 某 个 部 分 ， 在 某 一 瞬间 ， 
被 葛 名 地 连接 在 了 一 起 。 那 一 刻 ， 无 关 翡 喜 ， 只 无 悔 于 十 年 前 那个 改 
变 人 生 的 决定 。 不 知 十 年 后 ， 和 是否 尔 能 无 悔 于 今日 踏 上 机 需 学 习 、 人 

智能 之 旅 的 选择 。 


TES 


ne 能 科学 系 。 
A ` 品 友 互 动 算法 优化 组 
负责 人 。 现 任 Hulu 高 级 研发 工程 师 ， 负责 广告 投放 优化 和 知识 图 
i 普 等 项 目 。 


目 小 喜爱 数学 建 模 ， 高 中 时 获得 明天 小 小 科学 家 二 等 奖 、 英 
a 并 获 北 京 大 学 保送 资 


时 光 飞 逝 ， 我 在 人 工 智 能 领域 中 已 经 耕耘 有 10 个 年 头 了 。2007 
年 ， 读 大 二 的 我 参加 了 学 校 组织 的 创新 实验 计划 ， 在 凡 斌 老师 课题 组 


做 机 器 学 习 和 搜索 相关 的 课题 。 彼 时 的 我 对 计算 机 领域 还 没有 特别 全 
面 的 学 习 和 了 解 ， 仅 依靠 满 膛 热情 和 对 研究 的 热爱 完成 了 人生 的 第 一 
篇 论文 ， 现 在 回想 起 来 实 属 幸运 。 那 时 ， 深 度 神经 网 络 还 没有 今天 这 
样 火热 ， 所 读 的 论文 被 SVM、LDA 等 词汇 统治 ， 但 是 自 幼 参加 数学 建 
模范 赛 的 我 一 下 就 言 欢 上 了 这 个 领域 。 人 工 知 能 是 一 | 门 交 义学 科 ， 这 
个 领域 的 研究 员 需 要 懂得 数学 、 计 算 机 ， 有 了 时 甚至 需要 涉猎 心理 学 和 
哲学 ， 并 合理 地 运用 这 些 知 识 去 解决 实际 的 问题 。 如 今 ， 人 工 智能 不 
断 刷 新 着 人 们 的 想象 ， 从 人 脸 识 别 到 智能 语音 助手 ， 再 到 打败 世界 冠 
军 的 围棋 程序 AlphaGo， 让 这 门 学 科 具 有 了 愈 发 迷人 的 魅力 ， 吸 引 着 
我 们 不 断 去 追寻 更 加 智能 的 未 来 。 


人 工 智 能 领域 的 算法 门类 众多 。 数 十 年 来 ， 众 多 研究员 倾注 了 无 
数 心血 ， 给 出 了 许多 在 实践 中 行 之 有 效 的 方案 。 但 是 ， 繁 多 的 内 容 也 
使 得 最 初 进 入 这 个 领域 的 学 生 和 研究 员 们 无 所 适 从 。 在 最 初 开 始 人 工 
智能 的 学 习 和 研究 时 ， 我 也 是 一 样 ， 经 常 读 了 很 多 篇 论文 ， 却 无 法 在 
短 时 间 内 理解 这 些 论文 背后 的 哲学 。 这 样 的 理解 对 人 工 知 能 从 业 人 员 
来 讲 是 非常 必要 的 ， 然 而 在 论文 和 教科 书 中 却 甚 少 提 及 。 记 得 研究 生 
时 初 读 吴 军 的 《 良 潮 之 是 》 和 《数学 之 美 》 时 非常 欣 癌 ， 很 多 目 己 没 
有 完全 想 明 白 的 问题 在 作者 深入 浅 出 的 讲解 之 后 变 得 清晰 而 人 简单。 经 
过 了 十 年 的 经 验 积 票 ， 如 今 我 仍然 会 经 常 思 考 ， 那 些 隐 藏 在 精妙 解法 
背后 的 人 工 智能 的 本 质 究竟 是 人 什么。 能够 借 这 个 机 会 跟 大 家 分 享 ， 我 
感到 非常 开心 。 另 外 ， 每 个 人 理解 同一 个 问题 的 角度 都 会 有 所 不 同 ， 
能 够 在 一 本 书 中 将 这 些 观 点 汇聚 起 来 ， 是 一 件 令 人 兴奋 的 事情 。 在 
Hulu， 我 们 会 有 定期 的 Research Workshop 的 活动 ;不 同 背 景 和 研究 方 
癌 的 研究 员 们 各 抒 己见 ， 丰 富 了 彼此 对 不 同人 研究 领域 的 认识 。 在 本 书 
的 创作 过 程 中 ， 同 事 之 间 经 常 相互 讨论 和 审阅 ， 也 使 得 我 们 对 人 工 短 
能 的 理解 获得 了 进一步 升华 。 这 本 书 浓缩 了 我 们 思维 碰撞 的 成 果 ， 圳 
心 硕 望 广大 读者 也 能 从 中 有 所 收获 。 
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研发 创新 和 管理 经 验 ， 专 注 于 应 用 数据 和 算法 实现 产品 落地 。 在 
数据 分 析 和 机 器 学 习 方面 ， 有 丰富 的 实践 经 验 。 本 科 毕 业 于 清华 
大 学 目 动 化 系 ， 在 伊利 诺 伊 大 学 香槟 分 校 获 计算 机 视 党 领域 的 博 
士 学 位 。 历 任 施乐 硅谷 研究 中 心 研 究 员 ， 亚 马 进 美国 总 部 高 级 技 
术 经 理 ， 盛 大 创新 院 货 深 人 研究 员 兼 产品 总 监 ， 智 合 公 司 技术 副 总 
裁 和 宝宝 树 CTO“。 在 图 像 处 理 和 人 工 智能 方面 拥有 十 多 项 国际 专 
利 授 权 ， 发 表 学 术 论 文 二 十 余 篇 。 


从 1999 年 在 微软 中 国 研 究 院 实习 到 今天 ， 我 一 直 专 注 于 机 器 学 习 
的 研究 和 成 果 的 产业 化 。 近 10 年 来 计算 能 力 的 提升 和 数据 采集 渠道 的 
扩大 ， 让 机 器 学 习 的 商业 应 用 越 来 越 成 熟 。 搜 索 、 推 荐 、 机 器 翻译 等 
应 用 产品 的 推广 ， 给 人 研究 团队 提供 了 面向 大 规模 真实 用 户 的 实验 环 
境 ， 给 机 器 学 习 的 研究 范式 融 来 了 根本 性 的 变化 。 从 原来 基于 静态 离 
线 数据 的 评估 ， 升 级 到 基于 真实 用 户 反 馈 的 在 线 实验 的 评估 。 人 研究 者 
ee eee 
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出 了 更 高 的 要 求 。 算 法 工程 师 不 但 要 懂得 基于 确定 性 规则 的 编程 ， 还 
有 人 慌 得 基于 统计 学 习 的 算法 实现 。 本 书 恰 着 其 时 地 给 工程 师 提 供 了 一 
个 快速 入 门 机 器 学 习 的 通道 。 未 来 最 有 价值 的 技术 人 才 ， 是 在 某 个 领 
域 有 深度 ， 同 时 对 各 个 主要 技术 领域 有 广度 的 T 型 人 才 ， 所 以 即使 在 
近期 没有 机 会 直接 从 事 机 器 学 习 相关 的 项 目 ， 了 解 机 器 学 习 的 基本 理 
论 和 概念 ， 也 能 提高 目 己 的 竞 争 力 。 


本 书 是 Hulu 北 京 众多 同事 合作 的 结晶 ， 我 有 辛 给 其 中 的 两 章 提 供 
了 一 些 内 容 ， 和 希望 对 读者 有 所 帮助 。 


谢 晓 辉 


现任 Hulu 首 席 俩 究 主管 。 本 科 毕 业 于 西安 交通 大 学 ， 在 北 泵 
邮电 大 学 取得 博士 学 位 ， 先 后 在 松下 电器 人 研发 中 心 、 诺 基 亚 研究 
院 和 联想 研究 院 有 多 年 的 研究 经 历 ， 专 注 于 模式 识别 、 图 像 视频 
文本 等 多 媒体 信息 处 理 ， 对 人 工 知 能、 人 机 交互 以 及 研究 成 采 的 
产品 化 有 丰富 经 验 。 


近 几 年 来 ， 随 着 存储 和 计算 能 力 的 发 展 、 神 经 网 络 在 多 项 典型 模 
式 识 别 问 题 上 的 突破 ， 人 工 知 能 的 浪潮 义 一 次 局 卷 神 州 大 地 。 远 胜 人 
JE AY FLAS Alpha Zero、 匹 政 人 眼 的 人 脸 辨 识 摄 像 涉 、 可 以 准确 听 
懂 人 话语 的 Alexa 首 箱 、 上 自动 芍 驶 的 汽车 Waymo， 等 等 ， 层 出 不 穷 的 人 
工 智能 杰作 不 仅 吸引 着 人 们 的 注意 力 ， 还 开始 走 进 和 人们 的 生活 ， 展 示 
着 人 工 智 能 独特 的 吸引 力 。 我 相信 一 定 有 很 多 的 同学 会 被 人 工 智能 的 
的 力 折服 ， 期 望 投 号 其 中 并 贡献 目 己 的 才华 。 


事实 上 ， 这 次 人 工 智能 的 发 展 还 和 一 个 原因 密 不 可 分 ， 那 吏 是 共 
译 精神 。 越 来 越 多 的 文章 、 数 据 、 算 法 模型 和 开发 平台 被 公开 ， 同 时 
还 伴随 各 种 讲解 、 论 坛 和 课程 面 回 公众 ， 学 术 轿 、 工 业界 、 教 育 界 都 
在 为 人 工 智能 的 发 展 淆 矶 加 瓦 ， 期 望 人 工 智能 可 以 更 加 健康 的 发 展 。 
所 以 Hulu 北 京 老大 诸葛 越 提 出 “Hulu 可 以 做 些 什么 ”这 一 问题 ， 就 引起 
了 大 家 的 深 深思 考 ， 大 家 坚信 Hulu 应 该 也 一 定 可 以 回馈 社区 ， 并 为 人 
TS BEATE) A RISER TM EL ° 


能 有 这 种 信心 与 情怀 正 是 因为 人 工 冰 能 的 浪潮 也 一 样 深 深 地 影响 
着 Hulu， 人 工 智能 在 Hulu 业 务 中 的 应 用 遍及 方方面面 ， 比 如 个 性 化 推 
荐 系统 、 视 频 内 容 理 解 、 知 能 广告 推送 、 用 户 personal 等 。Hulu 优 秀 的 
算法 研究 员 在 人 工 状 能 和 机 妖 学 习 方 面积 办 了 丰厚 的 实战 经 验 ， 对 算 
法 、 模 型 以 及 优化 技巧 也 有 着 深入 的 理解 和 心得 。 因 此 ， 当 “ 写 一 本 
书 ” 的 想法 被 提出 来 的 时 候 ， 几 乎 得 到 了 大 多 数 同事 的 认可 。 我 相信 从 


参与 此 书 诸多 的 同事 名 单 中 ， 大 家 一 定 可 以 看 到 Hulu 对 于 这 一 前 沿 研 
究 领 域 的 热忱 。 事 实 上 ， 由 于 拥有 独特 的 视频 内 容 资源 ，Hulu 还 借助 
ICIP 和 ACM MM 等 平台 ， 通 过 组 织 苋 赛 的 方式 开放 了 部 分 Hulu 的 视频 
数据 和 有 挑战 性 的 研究 问题 。 


创作 十 一 件 非常 茸 杏 的 事 ， 很 多 同事 为 了 这 本 书 投 入 了 巨大 的 精 
力 ， 他 们 吴 负 项 目的 研发 压力 ， 只 十 利 用 业余 时 间 来 整理 算法 和 心 
得 ， 例 如 我 知道 的 几 个 同事 瑟 天 天 奋战 到 凌晨 两 二 点 。 我 相信 大 家 一 
定 可 以 从 书 中 读 到 Hulu 研 究 员 满 满 的 诚意 ， 也 期 望 看 到 此 书 的 同学 、 
朋友 们 多 提 宝 贵 意见 ， 多 推广 ， 让 此 书 发 挥 更 大 的 价值 。 


陈 拉 明 


1988 年 生 ， 江 西 庆 潭 人 。2010 年 毕业 于 清华 大 学 电子 工程 
条 ， 狂 工学 学 十 学 位 *2016 年 毕业 于 清华 大 学 电 寺 工 程 条 ， 狭 工 
学 博士 学 位 ， 主 要 研究 压缩 感知 中 的 稀疏 重建 算法 。 毕 业 后 就 职 
于 Hulu， 从 事 推荐 算法 的 研究 工作 。 


在 求职 的 高 峰 期 ， 我 一 周 之 内 大 概 会 安排 有 2 一 3 个 面试 。 在 每 次 
面试 前 ， 我 都 会 任 细 了 阅读 求职 者 的 简历 ， 根 据 求职 者 的 项 目 和 经 验 准 
备 一 些 有 针对 性 的 问题 。 这 些 问 题 可 能 是 机 融 学 习 的 基本 概念 、 求 职 
者 接触 过 的 算法 模型 ， 或 者 是 参与 项 目的 技术 细 市 。 很 多 时 候 ， 求 职 
者 在 回答 问题 的 过 程 中 能 够 给 出 目 己 独到 的 理解 和 思考 ， 这 对 于 我 来 
说 是 非常 喜闻乐见 的 ， 说 明 求 职 者 在 学 习 和 实践 的 过 程 中 有 独立 思考 


机 器 学 习 是 优美 的 。 它 的 发 展 既 源 于 生物 学 上 的 启发 ， 也 根植 于 
严谨 的 数理 推导 ， 既 得 益 于 研究 员 的 灵光 一 内 ， 也 离 不 开 众多 一 线 工 
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等 ， 掌 握 机 器 学 习 技能 对 大 多 数 人 来 说 只 是 决心 的 问题 了 。 


有 很 多 事情 想 着 容易 ， 真 正 上 手 做 起 来 却 发 现 没 那 么 集 单 ， 机 絮 
学 习 实践 是 一 个 ， 写 书 钙 男 一 个 。 从 此 更 加 钦佩 那些 能 够 写 出 大 部 头 
的 大 师 们 ， 这 背后 需要 炉火纯青 的 学 术 造 证 和 坚持 不 懈 的 投入 。 本 书 
的 初 囊 是 布 户 能 市 领 读 者 一 帘 机 右 学 习 的 美妙 之 处 。 寿 读者 在 看 过 本 
书 之 后 能 坚定 从 事 该 领域 的 决心 ， 那 更 是 再 好 不 过 了 。 


柳 春 洋 


2016 年 毕业 于 清华 大 学 计算 机 系 智 能 技术 与 系统 国家 重点 实 
验 室 ， 获 工学 硕士 学 位 ， 主 要 研究 方向 为 自然 语言 处 理 ， 在 
ACL、EMNLP 等 国际 会 议 上 发 表 论 文 数 篇 。 毕 业 后 加 入 Hulu 北 京 
研发 中 心 ， 现 就 职 于 Hulu 用 户 科 学 团队 ， 通 过 大 数据 技术 及 机 器 
学 习 算 法 处 理 、 分 析 用 户 数据 ， 构 建 用 户 级 别 数据 仓库 ， 支 持 
Hulu 的 产品 、 市 场 、 广 告 的 运营 及 决策 。 


当 这 本 书 临 近 完 成 时 ， 我 和 同事 聊天 说 ， 很 多 目 己 觉得 完全 理解 
了 的 东西 ， 当 你 想 把 它 写 出 来 时 ， 却 不 像 想 象 中 那么 简单 。 成 为 这 本 
书 的 其 中 一 位 作者 ， 对 我 来 说 是 一 种 采 广 ， 更 是 一 次 目 我 磨 大 和 提 
Lo 


我 们 出 生 在 最 幸运 的 年 代 ， 过 去 短 短 数 年 里 共同 见证 了 人 工 智能 
领域 的 飞速 发 展 。 我 们 看 到 了 AlphaGo 击 败 李 世 石 的 那 一 瞬间 ， 看 到 
了 图 像 识 别 、 目 然 语 言 处 理 等 领域 机 霹 正 在 追赶 甚至 超越 人 类 ， 看 到 
了 目 动 当 驶 、 智 能 语音 机 器 人 等 人 工 智能 应 用 的 诞生 、 发 展 和 成 熟 。 


想 从 事 人 工 智能 相关 工作 ， 想 成 为 时 代 的 弄潮儿 ， 想 伴随 这 个 领域 共 
同 成 长 已 经 是 很 多 人 共同 的 心愿 。 


两 年 前 我 还 是 一 个 求职 者 ， 我 能 够 体会 到 渔 望 从 事 人 工 智能 相关 
岗位 的 求职 者 的 心情 ， 当 我 得 知 Hulu 准 备 编写 一 本 人 工 智 能 面试 指南 
类 书籍 的 有 时候， 我 心里 大 声 叫 好 。 机 毕 巧 合 下 ， 我 也 加 入 了 作者 团 
队 。 为 了 确保 书 中 内 容 的 可 靠 性 ， 我 和 同事 们 查阅 了 大 量 相关 资料 ， 
进行 了 大 量 的 审查 和 校对 。“ 温 故而 知 新 ”， 编 写 这 本 书 的 过 程 中 ， 我 
重新 学 习 了 很 多 知识 ， 站 在 面试 出 题 者 的 角度 上 也 获得 了 很 多 不 一 样 
的 体验 和 感悟 。 


我 们 希望 无 论 你 古人 工 稼 能 大 牛 ， 还 是 对 机 器 学 习 一 无 所 知 的 小 
日 ， 痢 能够 从 这 本 书 中 收获 一 些 东 西 。 愿 读 完 这 本 书 能 让 你 更 加 热爱 
人 工 关 能， 能 为 你 接 下 来 的 求职 提供 一 点 护 的 帮助 。 


XER 


毕业 于 北京 大 学 ， 之 后 加 入 Hulu， 从 事 机 器 学 习 算法 视频 流 
上 的 应 用 。 


当 我 面 对 屏 幕 开始 准备 最 后 的 介绍 时 ， 我 不 由 想起 Hulu 创 新 实验 
室 的 诸 君 最 初诊 在 一 起 的 那个 午后 。 那 个 我 们 率 在 一 起 ， 想 着 这 本 书 
应 该 写 些 什么 ， 从 何 写 起 ， 甚 至 于 是 不 是 该 写 一 本 书 的 午后 。 一 本 面 
回 机 老 学 习 的 习题 集 并 不 是 最 初 束 决定 好 的 ， 从 关注 实践 的 《深度 学 
习 实 战 》 到 深入 浅 出 的 《为 什么 AI 这 么 火 》 都 一 度 进 入 过 我 们 的 视 
野 。 当 时 习题 集 的 主意 是 我 提 的 ， 锥 形 时 的 名 字 还 叫 作 《深度 学 习 面 
斌 至 典 》， 我 当然 知道 这 个 名 字 最 后 不 会 被 采用 ， 其 实 这 个 主意 本 号 
被 采纳 也 令 人 始 料 未 及 。 


创意 来 源 其 实 很 朴素 ， 你 在 高 考 前 会 做 《五 年 高 考 ， 三 年 模 
拟 》， 毕 业 时 准备 面试 会 刷 LeetCode， 那 么 准备 做 算法 工程 师 的 你 该 
ELI? 有 书 读 也 应 该 有 题 做 ， 似 乎 应 该 有 一 本 书 来 帮 你 巩固 知识 
上 态 、 加 深 理 解 、 拓 展 视野 ， 甚 至 于 分 至 一 些 业 内 经 验 ， 但 是 目前 并 没 
Ao 既然 市 场 上 没有 ， 那 么 我 们 目 己 来 。 读 者 们 如 采 能 通过 本 书 更 好 
地 理解 机 右 学 习 ， 了 人 解 业 界 进展 ， 那 我 们 的 目的 也 就 达成 了 。 


写作 不 论 是 在 速度 还 是 质量 上 都 称 得 上 是 令 人 慰 喜 的 。 大 家 集 思 
广 益 ， 磁 撞 出 了 许多 之 前 未 曾 设想 到 的 火花 。 书 中 的 题目 不 论 古 背景 
知识 还 是 思路 解法 也 都 在 我 们 的 一 次 次 讨论 中 不 断 充 实 丰 宇 。 看 着 一 
本 书 从 无 到 有 ， 慢 慢 真 实 起 来 ， 我 不 由 开始 激动 地 盼望 着 它 和 读者 朋 
友 们 见面 时 的 样子 。 


这 本 书 对 我 个 人 有 痢 非 常 特殊 的 意义 ， 既 是 知识 的 总 结 与 回馈 ， 
也 古 工 作 的 努力 与 回报 ， 更 是 同事 朋友 间 的 合作 与 记忆 。 感 谢 Hulu 有 
这 样 一 个 项 目 ， 能 让 我 拥有 这 些 人 生 中 极为 珍 贯 、 不 可 多 得 的 体验 。 


围 于 作者 水 平 ， 书 中 错漏 之 处 在 所 难免 ， 我 们 也 息 切 地 期 望 读 者 
们 的 指正 与 反馈 ， 大 家 一 起 为 机 邵 学 习 领 域 添 一 份 力 。 


2005 年 考 入 北京 大 学 信息 科学 技术 学 院 ， 成 为 第 二 届 智 能 科 
学 系 本 科 及 研究 生 。2013 年 进入 加 州 大 学 洛杉矶 分 校 攻读 人 工 御 
能 专业 。2015 年 夏 做 出 人 生 重 大 抉择 ， 弃 学 回国 创业 ， 几 经 辑 
转 ， 侈 后 任 创业 公司 大 数据 项 目 负责 人 、360 人 工 智能 研究 院 深 度 
学 习 算 法 工程 师 ， 现 任 Hulu Reco Research 组 深度 学 习 人 研究 员 。 


“When I heard the learn’d astronomer, 
When the proofs, the figures, were ranged in columns before me, 


When I was shown the charts and diagrams, to add, divide, and 
measure them, 


When I sitting heard the astronomer where he lectured with much 
applause in the lecture-room, 


How soon unaccountable I became tired and sick, 
Till rising and gliding out I wander’d off by myself, 
In the mystical moist night-air, and from time to time, 


Look’d up in perfect silence at the stars.” 
th REE PA CERE) 〈 见 《 绝 命 毒 师 》 第 3 季 


人 工 智能 不 是 数 学 家 笔下 的 公式 ， 也 不 是 工程 师 殴 出 的 代码 。 在 
未 知 世 界 的 炫丽 星空 中 ， 知 能 的 奥秘 吸引 了 有 几 个 世纪 的 哲学 家 和 科学 
家 。 如 果 不 是 对 未 知 的 好 奇 和 对 真理 的 渔 望 ， 仅 出 于 功利 的 驱使 或 是 
炫 拉 的 考量 ， 那 么 你 很 快 束 会 感到 疲倦 。 


智能 是 上 帝 赐 予 人 类 的 礼物 ， 但 是 我 们 却 无 法 打开 一 舌 究 竟 。 纵 
然 这 样 ，21 世 纪 的 今天 ， 没 有 哪 项 科幻 级 墨 科技 比 AI 离 我 们 更 近 。 数 
据 规 模 、 运 算 速 度 和 各 种 软 便 件 平台 ， 都 在 帮助 我 们 打开 通 癌 AI 的 大 
1] 。 历 史上 人 工 智能 几 起 几 落 ， 冤 其 原因 ， 并 非 是 数据 不 够 、 计 算 痪 
人 


了 解 智能 ， 我 们 会 更 了 解 人 类 自己; PRE, RRR EAE 
关 问 题 。 正 如 DeepMind 创 始 人 德 米 斯 : 哈 撒 比 斯 (Demis Hassabis) 所 
说 : “Solve Intelligence. Then and then use that to solve everything 
else.” 因 此 ， 在 写生 成 式 对 抗 网络 一 章 时 ， 在 复杂 索 琐 的 数学 推导 之 
外 ， 我 尽 可 能 从 直觉 上 去 理解 和 阐述 模型 背后 的 意义 ， 这 也 给 我 市 来 
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封 不 动 地 将 你 所 学 知识 和 一 托 出 ， 而 十 一 个 再 审视 再 创造 的 过 程 ， 你 
总 会 发 现 曾经 未 曾 发 现 的 ， 你 总 会 涌现 出 一 些 新 想法 。 


参与 写 此 书 不 是 一 场 轻松 的 旅程 ， 写 下 的 每 句 话 都 要 反复 其 酌 ， 
并 尽量 不 是 死板 的 叙述 ;但 是 ， 这 是 一 场 奇妙 的 旅程 ， 总 能 发 现 一 些 
ae eo 
少 的 旅程 。 


冯 伟 


清华 大 学 计算 机 系 博士 ， 研 究 方 回 为 社区 网 络 、 推 荐 系统 。 
现任 Hulu 数 据 科 学 团队 资深 人 研究员， 主要 负责 智能 用 户 运 理 ， 包 
括 用 户 拉 新 、 转 化 、 留 存 和 召回 。 也 参与 构建 了 Hulu 内 容 价 值 预 
佑 系统 ， 辅 助 Hulu 进 行 美剧 采购 、 续 约 等 决策 。 平 常 喜 欢 广 泛 涉 
音 AI 的 最 新 进展 ， 也 喜欢 八卦 AI 落地 背后 的 种 种 趣闻 。 在 数据 控 
掘 和 机 器 学 习 的 国际 知名 会 议 KDD、UCAI、WWW、WSDM、 
ICDE 上 均 有 论文 发 表 。 


在 参与 编写 本 书 的 过 程 中 ， 我 致力 于 用 最 为 简单 的 语言 和 例子 来 
让 AI 变 得 通俗 易 履 。 同 时 也 深 深 地 体会 到 写作 对 帮助 理解 算法 的 重要 
性 。 对 于 日 靳 月 异 的 AI 技 术 ， 我 既 兴 和 否 又 焦虑 。 兴 奋 是 因为 AI 同 行 们 
每 天 都 在 突破 目 己 ， 达 到 新 的 高 度 。 焦 虑 是 因为 作为 个 体 ， 我 们 只 有 
有 限 的 时 间 与 精力 掌握 其 中 一 二 。 和 硕 望 这 本 书 能 给 AI 初学 者 帮 至 同行 
市 来 帮助 ， 提 供 不 同 的 视角 。 作 为 一 名 在 工业 界 实 践 探索 的 PhD ， 基 
有 成 就 感 的 莫 过 于 看 到 算法 驱动 核心 指标 的 增长 ， 背 后 伴随 着 一 次 又 
一 次 的 试 错 与 纠正 。 在 反 反 复 复 的 实践 中 ， 深 知 好 的 算法 能 落地 发 挥 
作用 是 多 么 的 不 易 。 在 不 断 理解 新 的 模型 与 思想 的 时 候 ， 慢 慢 地 发 现 


me RAW ESR PATS FE, ANT DAE IT aT RE 
oR BRL AS) AY aj FB FS FR RR HOR o ARIES ST ROT Pilea so), FFA 
古 特 征 工 程 、 强 化 学 习 等 方向 的 思考 ， 项 望 能 帮助 到 大 家 。 


董 建 强 


本 硕 毕 业 于 清华 大 学 目 动 化 系 ， 从 大 三 开始 接触 机 融 学 习 ， 
并 且 从 此 立志 在 该 领域 深耕 。 


2014 年 开始 在 Hulu 工 作 ， 现 任 研 究 员 。 在 Hulu 的 四 年 间 ， 从 
一 个 许多 小 事 剖 要 疝 lead 请 教 的 瑟 鸟 ， 成 长 为 独当一面 ， 带 过 8 位 
实习 生 还 算 称 职 的 mentor 


TFR, BEH ` E` WERNE ` Ea 。 
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为 了 更 好 地 回答 问题 ， 我 翻 通 了 市 面 图 书 和 重要 论文 ， 依 然 只 能 如 履 
薄 冰 地 写 出 我 的 一 点 见解 。 在 写 趣 邮 轶 事 的 时 候 ， 看 似 轻松 ， 然 而 字 
其 句 酌 也 不 可 或 缺 。 


最 近 有 了 和 孩子， 在 观察 孩子 成 长 的 过 程 中 ， 我 发 现 深度 学 习 的 一 
些 算法 ， 和 一 个 半 风 的 孩子 学 习 的 过 程 很 像 。 例 如 ， 孩 子 会 经 常 抓 着 
一 块 布 ， 把 它 拉平 ， 再 合 起 来 ， 大 家 都 会 觉得 挺 向 单 的。 但 我 曾经 在 
面试 中 明 到 一 位 候选 人， 就 是 用 深度 学 习 让 机 器 人 能 像 孩 了 一样， 通 
a eee 


人 们 往往 会 高 佑 新 技术 的 短期 影响 ， 认 为 人 工 智能 无 所 不 能 ， 人 
类 都 要 大 规模 失业 云云 。 其 实 如 采 人 工 智 能 能 帮 我 们 处 理 好 县 衣服 、 
Fre > URS ARE, LEAR A MSE BILGE ` BETH RRR AT IR 
的 事情 ， 驶 很 伟大 了 “。 束 像 截至 目前 ， 最 解放 生产 力 的 发 明 应 该 像 干 
家 万 户 习 以 为 第 的 洗衣 机 一 样 。 


近来 正 值 美 国 对 中 兴 心 片 制裁 ， 我 们 看 似 在 机 天 学 习 领 域 的 论文 
RENCE >, (HERA TIS ` ERRE he RH BIS SAR 
护 的 e 为 我 国 在 该 领域 的 建 
设 添砖加瓦 。 
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博士 就 读 于 中 国 科 学 院 计 算 技 术 研 究 所 ， 研 究 方向 为 计算 机 
视觉 与 模式 识别 。2017 年 7 月 毕业 后 加 入 Hulu， 从 事 视 频 内 容 理解 
相关 算法 研究 。 


经 过 大 半年 时 间 的 努力 ， 我 们 创作 的 “面试 书 ” 终 于 要 出 版 了 ， 有 
吉成 为 作者 之 一 ， 也 算 圆 了 目 己 童年 时 的 一 个 梦想 。 


束 在 2017 年 ， 我 目 己 也 还 是 一 个 校园 招聘 的 杀 历 者 ， 在 准备 面试 
的 过 程 中 很 希望 角 儿 本 “面试 宝典 ”能 “ 抱 抱 佛 脚 "， 尤 其 近 两 年 机 絮 学 
习 领 域 剑 发 火热 ， 了 解 一 些 经 典 或 前 沿 的 问题 总 归 会 为 自己 增添 筹 
码 ， 这 个 想法 也 成 为 了 我 参与 编写 本 书 的 最 原始 初衷 ， 也 布 望 为 之 后 
应 聘 的 同学 们 提供 一 些 素 材 或 思路 。 


真正 开始 写 稿 却 发 现 困 难 重重 。 从 内 容 的 架构 到 章 市 的 分 布 ， 
一 步 都 需要 团队 成 员 们 不 断 讨 论 、 修 正 ， 好 不 容易 确定 好 分 工 ， 具 体 


实施 也 并 不 那么 顺利 。 很 多 以 为 目 己 很 “ 懂 ” 的 问题 ， 动 笔 写 起 来 却 总 
征 觉 得 难以 描述 清楚 。 问 题 育 景 、 解 决 动机 、 理 论 依据 、 实 现 方案 
等 ， 每 一 步 都 需要 条 理 清 晰 、 逻 辑 连 贯 。 同 时 为 了 确保 内 容 的 正确 
性 ， 从 各 种 信息 源头 查阅 资料 、 反 复 校 验 也 必 不 可 少 ， 整 个 写作 过 程 
下 来 ， 虽 然 耗 费 了 大 量 的 时 间 ， 但 是 目 己 却 从 中 获 益 颇 多 ， 对 问题 也 
有 了 更 深刻 的 认识 和 理解 。 当 看 到 书 中 内 容 一 天 天 丰满 起 来 ， 每 个 人 
心中 的 成 束 感 与 满足 感 也 在 慢 慢 增强 。 整 个 过 程 给 予 了 我 们 从 发 现 问 
题 到 克服 困难 达成 目标 的 完整 体验 ， 值 得 每 个 人 去 回味 与 相互 分 至 。 


除了 知识 和 技能 的 提高 ， 写 作 过 程 中 更 大 的 收获 是 与 同事 们 一 起 
合作 、 共 同 成 长 的 经 历 。 大 家 在 反复 的 讨论 与 修改 中 ， 不 断 学 习 完 善 
并 产生 新 的 灵感 ， 以 期 给 读者 市 来 最 大 的 局 发 。 项 望 本 书面 世 后 ， 各 
位 读者 能 不 音 有 反馈， 帮助 我 们 不 断 改进 ! 


aK a 


2012 年 博士 毕业 于 清华 大 学 计算 机 系 。 博 士 期 间 的 研究 方向 
包括 计算 机 图 形 学 、 视 觉 、 机 器 学 习 等 ， 发 表 论文 多 篇 。 同 年 加 
入 Hulu， 先 后 从 事 自然 语言 处 理 、 推 荐 算法 等 方面 的 研究 工作 。 


通过 这 本 书 的 写作 ， 我 也 提高 了 很 多 。 原 以 为 把 目 己 会 的 东西 写 
出 来 是 一 个 很 容易 的 事情 ， 可 是 真正 开始 写作 ， 才 知道 目 己 的 学 识 是 
多 么 肤 乒 。 通 过 一 过 过 翻阅 各 种 文献 货 料 ， 一 过 过 推 匡 每 一 个 定义 和 
公式 ， 我 也 获得 了 之 前 从 未 有 过 的 清晰 理解 。 

人 工 智能 正 改变 着 这 个 世界 的 方方面面 ， 改 变 着 人 类 历史 的 进 
程 ， 也 会 成 为 每 一 个 有 为 青年 的 必修 课 。 很 高 兴 能 成 为 本 书 的 作者 ， 
和 大 家 一 起 去 探索 这 个 充满 着 朝气 和 活力 的 领域 。 
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